เมื่อเราอยู่ในโลกที่กำลังพัฒนาแล้ว เราก็ต้องพัฒนาไปตามโลก Vall-E ระบบ AI ใหม่ของ Microsoft ที่สามารถเลียนแบบเสียงคนได้ใน 3 วินาที จะเป็นอย่างไรมารู้ไว้ให้ทันโลกกัน
รู้จักกับ Vall-E ระบบ AI ใหม่ของ Microsoft
Vall-Eคือเอไอจากไมโครซอฟต์ที่สามารถสร้างเสียงมนุษย์จากเสียงต้นฉบับเพียง 3 วินาทีพร้อมอารมณ์ของเสียงที่ยังคงเหมือนกันอีกด้วย โดยหากเรียนรู้จากเสียงต้นฉบับเพียง 3 วินาทีแล้วVALL-E จะสามารถสร้างเสียงใหม่ของบุคคลนั้นโดยจะพูดอะไรก็ได้ และยังคงน้ำเสียงของผู้พูดได้อย่างแม่นยำ
ผู้สร้างคาดเดาว่าVALL-E ใช้สำหรับแอป text to speech ที่มีคุณภาพสูง การแก้ไขเสียงพูดสามารถแก้ไขและเปลี่ยนการบันทึกของบุคคลจากการถอดเสียงข้อความ Microsoft เรียกVall-E คือ neural codec language model, ซึ่งได้รับการฝึกอบรมเกี่ยวกับการพูดมามากกว่า 6 หมื่นชั่วโมง โดยส่วนใหญ่ได้เสียงเหมือนมนุษย์พูดจริงๆ อีกทั้งยังใช้ประสบการณ์ที่ได้จากการฝึกอบรมเพื่อ AI สังเคราะห์ว่า เสียงจะออกมาเป็นอย่างไรหากกำลังพูดในวลีที่ไม่เหมือนกัน
โดยปกติแล้วเทคโนโลยีที่เกี่ยวกับการแปลงข้อความเป็นคำพูดจะสังเคราะห์เสียงพูดและจัดการรูปแบบคลื่น (Waveform) แต่VALL-E นั้นสร้างรหัสตัวแปลงสัญญาณเสียงจากข้อความและเสียงที่ป้อนให้เลย วิเคราะห์ลักษณะเสียงและบุคคล แบ่งข้อมูลออกเป็นองค์ประกอบย่อย (เรียกว่า “โทเค็น”) แล้วจึงแปลงออกมาเป็นรูปแบบคลื่น
ไมโครซอฟต์สามารถสังเคราะห์เสียงพูดของVALL-E ในฐานข้อมูลเสียงที่รวบรวมโดยเมตา เรียกว่า LibriLight โดยประกอบไปด้วยคำพูดที่เป็นภาษาอังกฤษ 60,000 ชั่วโมงจากผู้พูดมากถึง 7,000 คน เพื่อให้VALL-E สามารถสร้างเสียงออกมาได้อย่างแม่นยำ
โดย เงื่อนไขที่VALL-E จะสามารถเลียนเสียงพูดได้ใน 3 วินาทีนั้นก็คือ เสียงดังกล่าวจะต้องใกล้เคียงกับเสียงในฐานข้อมูล
นอกระดับเสียงและน้ำเสียงที่สื่ออารมณ์ของผู้พูดแล้วVALL-E ยังสามารถเลียนแบบ “สภาพแวดล้อมทางเสียง” ของเสียงต้นฉบับได้อีกด้วย ยกตัวอย่างเช่น หากต้นฉบับมาจากเสียงที่เหมือนการพูดคุยทางโทรศัพท์ VALL-Eก็จะสามารถจำลองเสียงและความถี่ให้เหมือนเสียงที่พูดผ่านโทรศัพท์จริง ๆ
นับว่าเป็นการพัฒนาของ AI ที่ก้าวหน้าไปอีกขั้น แต่หากเทคโนโลยีนี้ตกอยู่ในผู้ไม่หวังดี ก็อาจจะส่งผลกระทบในการใช้เทคโนโลยีสังเคราะห์เสียง ไปใช้ในทางที่ไม่ดีได้เช่นกัน ยกตัวอย่างเช่น แก็งคอลเซ็นเตอร์ ที่ปลอมเป็นเสียงนักการเมือง ปลอมเสียงดาราที่มีชื่อเสียง เป็นต้น ดังนั้นจริยธรรมของ AI ก็เป็นประเด็นที่สำคัญเช่นกัน
ความอันตรายที่อาจจะเกิดขึ้นจาก VALL-E
VALL-Eแตกต่างจาก ChatGPT ทาง Microsoft ไม่อนุญาตให้มีการเปิดใช้งานVALL-E แก่บุคคลทั่วไป จากความกังวลในหลายด้านซึ่งอาจนำไปสู่ข้อพิพาทขนาดใหญ่ เหมือนกับการแพร่กระจายของเทคโนโลยี Deepfake แต่คราวนี้อาจร้ายแรงยิ่งกว่า
มีความเป็นไปได้สูงว่าหากเปิดให้มีการใช้งานทั่วไปVALL-E อาจถูกนำไปใช้ในเชิงอาญากรรม ด้วยตัวอย่างเสียงเพียง 3 วินาทีอาจทำให้เกิดอาญากรรม ฉ้อโกง หลอกลวงรูปแบบต่างๆ ได้ เป็นประโยชน์ให้แก่มิจฉาชีพในการหลอกลวงคนใกล้ชิดกับเป้าหมายที่เลียนแบบเสียง ซึ่งจะนำไปสู่การเกิดอาชญากรรมเป็นวงกว้าง
อีกหนึ่งสิ่งที่มีสิทธิ์เกิดขึ้นได้ คือการใช้งานในเชิงกลั่นแกล้ง เป็นไปได้ว่าหากมีการใช้งานVALL-E แพร่หลาย ก็อาจจะมีการเลียนแบบเสียงใครสักคนขึ้นมา จากนั้นก็นำไปแจ้งเหตุร้ายปลอมแก่เจ้าหน้าที่ นอกจากทำให้เกิดความเข้าใจผิดจนความช่วยเหลือไปไม่ถึงแก่ผู้ที่ต้องการเร่งด่วนแล้ว ยังอาจนำไปสู่การกลั่นแกล้งเจ้าของเสียงจนเกิดคดีความได้อีกด้วยเช่นกัน
นอกจากนี้ เอไอVALL-E อาจถูกนำไปใช้ในการเผยแพร่ข้อมูลผิดๆ ผ่านน้ำเสียงของคนดังหรือผู้มีอิทธิพลทางสังคมได้ ซึ่งจะนำไปสู่การกระจายข้อมูลที่ไม่ถูกต้องแบบเดียวกับที่เกิดขึ้นกับเทคโนโลยี Deepfake และอาจนำไปสู่ความเสียหายต่อสาธารณะอย่างคาดไม่ถึง
เรื่องจะยิ่งมีความซับซ้อนหากปัญญาประดิษฐ์นี้ถูกนำไปใช้งานในชั้นศาล อย่างที่ทราบกันดีว่าเสียงบันทึกเป็นหนึ่งในข้อมูลที่ถูกใช้งานและได้การยอมรับทางกฎหมาย แต่หากมีการใช้งาน เอไอ VALL-Eเพื่อปลอมแปลงเสียงและนำไปใช้ในชั้นศาล เป็นไปได้สูงว่าอาจเกิดความสับสนจนนำไปสู่การตัดสินคดีความผิดพลาดได้ในอนาคต
นี่จึงเป็นสาเหตุให้ปัจจุบัน Microsoft ไม่เปิดให้มีการใช้งานVALL-E แก่บุคคลทั่วไป จนกว่าจะมีมาตรการรับมือทั้งในด้านเทคโนโลยีและกฎหมาย แต่แม้ทั้งสองด้านนี้จะพร้อมสรรพแต่เราก็ยังคงต้องเฝ้าระวังการใช้งานเอไอตัวนี้ และมีความเป็นไปได้สูงว่าความรู้ความเข้าใจของคนในสังคมอาจไม่พร้อมรองรับเทคโนโลยีนี้
แต่ใช่ว่าVALL-E จะมีเพียงข้อเสีย การจำลองเสียงนี้อาจสามารถใช้ในการรักษาแก่ผู้มีอาการทางจิต โดยเฉพาะอาการที่เกิดขึ้นหลังการสูญเสียคนใกล้ชิด หากสามารถนำเทคโนโลยีนี้เข้ามาเป็นส่วนหนึ่งในการบำบัด ก็อาจช่วยให้การรักษาอาการทางจิตดีขึ้นก็เป็นได้
ข้อกังวลด้านกฎหมาย
“เทคโนโลยีที่ใช้ AI จำลองเสียงอาจทําให้เกิดปัญหาทางกฎหมายได้ และอาจจะเกิดการปลอมตัวทางโทรศัพท์ เพื่อหลอกผู้ฟังให้ตกเป็นเหยื่อหลงกลโกง หรือแม้แต่ใช้เพื่อเลียนแบบเสียงของผู้สมัครรับเลือกตั้งและให้ข้อมูลที่ไม่ถูกต้อง
โดยในปัจจุบันยังไม่มีกฎหมายที่จะจัดการกับการใช้เทคโนโลยีโกงเสียงโดยเฉพาะ” Michael L. Teich หัวหน้า Harness IP ซึ่งเป็นสำนักงานกฎหมายทรัพย์สินทางปัญญาแห่งชาติ กล่าว
และ Teich ยังแสดงความคิดเห็นเพิ่มเติมอีกว่า “หากเทคโนโลยีเหล่านี้ได้เติบโตเต็มที่ รัฐบาลอาจจะต้องมีกฎหมายที่ออกมาเพื่อกำกับการใช้งาน เพื่อป้องกันการใช้งานในทางที่ผิด เพราะหากเทคโนโลยีก้าวหน้าและเข้าถึงได้ง่ายขึ้น ผู้เคราะห์ร้ายอาจจะตกเป็นเหยื่อของกลโกงได้”
ทางด้าน Bob O’Donnell ผู้ก่อตั้ง Techanalysis Research บริษัทที่ปรึกษาด้านการวิจัยตลาดเทคโนโลยี ในรัฐแคลิฟอร์เนีย กล่าวว่า ในช่วงไม่กี่สัปดาห์ที่ผ่านมา ไมโครซอฟท์ได้พาดหัวข่าวเกี่ยวกับ AI เช่นเดียวกัน
โดยคาดการณ์ว่าบริษัทจะนำเทคโนโลยี ChatGPT เข้าสู่ Bing Search Engine ภายในปีนี้และอาจรวมอยู่ในแอปพลิเคชัน Office ของตน และมีแผนจะลงทุน 10 ล้านดอลลาร์ร่วมกับบริษัท OpenAI ซึ่งปัจจุบันได้พัฒนา VALL-Eขึ้นมาเสริม นับว่าพวกเขาฉลาดในการลงทุน และคิดว่าไมโครซอฟท์กำลังดำเนินมาตรการเชิงรุกเพื่อให้ตัวเองไปสู่ระดับแนวหน้า อย่างไรก็ตาม ไมโครซอฟท์ยังอยู่ในขั้นของการพัฒนา AI ดังกล่าวเพิ่มเติม และยังไม่ได้เปิดให้ใช้บริการ
สรุป
Vall-E ระบบ AI ใหม่ของ Microsoft ที่สามารถเลียนแบบเสียงคนได้ใน 3 วินาที สามารถเลียนแบบเสียงน้ำเสียงของต้นฉบับได้แม่นยำ แต่ ณ ตอนนี้ยังไม่สามารถเป็นให้ใช้สำหรับบุคคลธรรมได้เพราะมีความเสี่ยงที่จะถูกนำเอาไปใช้ในด้านที่ไม่ดี
ผู้ประกอบการท่านใด ต้องการเดินบนเส้นทางธุรกิจออนไลน์ ปรึกษา Exvention ได้เลยครับ นอกจากนี้เรายัง รับทำเว็บไซต์ อีกด้วยท่านใดสนใจติดต่อเราได้เลยครับ
Reference :
Vall-Eเอไอจากไมโครซอฟต์ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาทีได้
ไมโครซอฟต์พัฒนาVALL-Eเอไอเลียนเสียงคนได้เหมือนเป๊ะในเวลา 3 วิ
VALL-Eเอไอที่สามารถเลียนเสียงเราได้ใน 3 วินาที
ไมโครซอฟท์ เปิดตัวVALL-Eเอไอเลียนแบบเสียงมนุษย์ได้สมจริง