OpenAI เปิดตัว Voice Intelligence แปลภาษาเรียลไทม์กว่า 70 ภาษา

OpenAI เปิดตัวเทคโนโลยี “Voice Intelligence” พร้อมโมเดล AI เสียงรุ่นใหม่ รองรับการสนทนา แปลภาษาแบบเรียลไทม์กว่า 70 ภาษา และถอดเสียงสด ดันยุค Voice Agent เต็มรูปแบบ

KEY

POINTS

OpenAI เปิดตัวเทคโนโลยีใหม่ “Voice Intelligence” สำหรับการสนทนาด้วยเสียงแบบเรียลไทม์ เพื่อให้ AI โต้ตอบได้เป็นธรรมชาติเหมือนมนุษย์มากขึ้น
มาพร้อมโมเดล GPT-Realtime-Translate ที่สามารถแปลภาษาด้วยเสียงแบบสดๆ รองรับการแปลมากกว่า 70 ภาษา และแปลออกได้ 13 ภาษาแบบเรียลไทม์
ประกอบด้วยอีก 2 โมเดลคือ GPT-Realtime-2 สำหรับการสนทนาที่ซับซ้อนและสั่งงานได้ และ GPT-Realtime-Whisper สำหรับการถอดเสียงเป็นข้อความทันที

OpenAI เปิดตัวเทคโนโลยีด้านเสียงและการสนทนาแบบเรียลไทม์ชุดใหม่ ภายใต้แนวคิด “Voice Intelligence” เพื่อยกระดับการพัฒนา AI Voice Agent และผู้ช่วยอัจฉริยะที่สามารถโต้ตอบกับมนุษย์ได้อย่างเป็นธรรมชาติมากขึ้น ผ่านการฟัง คิด วิเคราะห์ และตอบสนองได้แบบทันที

การเปิดตัวครั้งนี้สะท้อนทิศทางสำคัญของอุตสาหกรรม AI ที่กำลังเปลี่ยนผ่านจากระบบแชตข้อความ ไปสู่ “AI เชิงเสียง” หรือ Voice-first AI ซึ่ง OpenAI มองว่าจะเป็นหนึ่งในแพลตฟอร์มหลักของเทคโนโลยียุคถัดไป ทั้งในภาคธุรกิจ การบริการ และการใช้งานระดับบุคคล

เทคโนโลยีใหม่ดังกล่าวเปิดให้ใช้งานผ่าน Realtime API ของ OpenAI โดยออกแบบมาสำหรับนักพัฒนาและองค์กรที่ต้องการสร้างระบบ AI สนทนาเสียงแบบสด ไม่ว่าจะเป็นคอลเซ็นเตอร์ ผู้ช่วยดิจิทัล ระบบบริการลูกค้า แอปพลิเคชันแปลภาษา หรือ AI Agent สำหรับองค์กร

เปิดตัว 3 โมเดลใหม่ รองรับ AI เสียงครบวงจร

OpenAI เปิดตัว Voice Intelligence แปลภาษาเรียลไทม์กว่า 70 ภาษา

OpenAI ระบุว่า ชุดเทคโนโลยี “Voice Intelligence” ประกอบด้วยโมเดลใหม่ 3 ตัว ได้แก่ GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper ซึ่งครอบคลุมทั้งการสนทนา การแปลภาษา และการถอดเสียงแบบเรียลไทม์

โมเดลแรก GPT-Realtime-2 ถูกพัฒนาให้เป็นระบบสนทนาเสียงแบบเรียลไทม์ที่มีความสามารถด้าน reasoning ระดับสูง รองรับการสนทนาที่ยาวและซับซ้อนมากขึ้น พร้อมความสามารถในการเรียกใช้เครื่องมือ (tool calling) ระหว่างบทสนทนา ทำให้ AI ไม่ได้ทำหน้าที่เพียงตอบคำถาม แต่สามารถดำเนินการต่าง ๆ ได้ระหว่างการสนทนา

OpenAI ระบุว่า GPT-Realtime-2 รองรับ context window สูงถึง 128K tokens ช่วยให้ AI จดจำบริบทการพูดคุยต่อเนื่องได้ยาวขึ้น และตอบสนองได้ใกล้เคียงการสื่อสารของมนุษย์มากกว่าเดิม

ขณะที่ GPT-Realtime-Translate ถูกออกแบบสำหรับงานแปลภาษาเสียงสด รองรับภาษามากกว่า 70 ภาษา และสามารถแปลออกได้ 13 ภาษาแบบเรียลไทม์ เหมาะสำหรับการใช้งานด้านบริการลูกค้าระหว่างประเทศ การประชุมออนไลน์ การท่องเที่ยว และการศึกษา

ส่วน GPT-Realtime-Whisper เป็นโมเดลถอดเสียงแบบ streaming speech-to-text สำหรับงานสร้างคำบรรยายสด การประชุมออนไลน์ การถอดบทสนทนา และระบบสรุปข้อมูลแบบเรียลไทม์ โดย OpenAI ระบุว่าโมเดลใหม่นี้มีความแม่นยำและตอบสนองได้รวดเร็วขึ้นกว่าเดิม

ดัน AI “ฟัง-คิด-ตอบ” แบบมนุษย์มากขึ้น

OpenAI อธิบายว่า แนวคิดสำคัญของ Voice Intelligence คือการเปลี่ยนรูปแบบการทำงานของ AI จากเดิมที่ระบบต้อง “ฟังเสียง → แปลงเป็นข้อความ → ประมวลผล → ตอบกลับ” ไปสู่การโต้ตอบแบบเรียลไทม์ที่ลื่นไหลมากขึ้น

บริษัทระบุว่า AI รุ่นใหม่จะสามารถจับจังหวะการสนทนา เข้าใจบริบท อารมณ์ และตอบสนองได้ใกล้เคียงการพูดคุยกับมนุษย์จริง ซึ่งเป็นก้าวสำคัญของการพัฒนา AI เชิงสนทนาในยุค multimodal

OpenAI มองว่า Voice Interface จะกลายเป็นอีกหนึ่งรูปแบบการใช้งานหลักของ AI ในอนาคต โดยเฉพาะในบริการที่ต้องการความรวดเร็วและการสื่อสารที่เป็นธรรมชาติ เช่น ศูนย์บริการลูกค้า ระบบผู้ช่วยในรถยนต์ โรงแรม การแพทย์ และผู้ช่วยดิจิทัลส่วนบุคคล

เปิดทาง “Voice Agents” ยุคใหม่

การเปิดตัวครั้งนี้ยังสะท้อนยุทธศาสตร์ของ OpenAI ที่ต้องการผลักดันตลาด “AI Agents” หรือ AI ที่สามารถดำเนินการแทนมนุษย์ได้มากขึ้น ไม่ใช่เพียงตอบคำถามเท่านั้น

OpenAI ระบุว่า เทคโนโลยี Voice Intelligence จะช่วยให้นักพัฒนาสามารถสร้าง Voice Agents ที่สามารถสนทนา รับคำสั่ง ค้นหาข้อมูล เรียกใช้เครื่องมือ หรือดำเนินงานต่าง ๆ ระหว่างการพูดคุยได้แบบทันที

ตัวอย่างเช่น ระบบบริการลูกค้าที่สามารถพูดคุยกับลูกค้า ตรวจสอบข้อมูล จองบริการ หรือแก้ปัญหาให้ผู้ใช้งานได้ภายในการสนทนาเดียว โดยไม่ต้องส่งต่อไปยังเจ้าหน้าที่หลายขั้นตอนเหมือนระบบแบบเดิม

บริษัทระบุเพิ่มเติมว่า ปัจจุบันโมเดลทั้งหมดเปิดให้ใช้งานแล้วผ่าน API ของ OpenAI สำหรับนักพัฒนาและองค์กรทั่วโลก เพื่อรองรับการสร้างแอปพลิเคชัน AI เชิงเสียงรุ่นใหม่

การเปิดตัว Voice Intelligence จึงถือเป็นอีกก้าวสำคัญของ OpenAI ในการแข่งขันตลาด AI เชิงสนทนา หลังอุตสาหกรรม AI กำลังเข้าสู่ยุคที่ “เสียง” อาจกลายเป็นอินเทอร์เฟซหลักของการใช้งาน AI ในอนาคต มากพอ ๆ กับข้อความหรือหน้าจอแบบดั้งเดิม

เรียบเรียงจาก OpenAI

ฐานเศรษฐกิจ

กองบรรณาธิการฐานเศรษฐกิจ: ทีมข่าวมืออาชีพที่เกาะติดสถานการณ์เศรษฐกิจ การเมือง และการลงทุนอย่างใกล้ชิด มุ่งมั่นนำเสนอข้อมูลเชิงลึกที่ผ่านการตรวจสอบและคัดกรองอย่างถี่ถ้วน เพื่อให้ผู้อ่านได้รับข่าวสารที่รอบด้านและเป็นประโยชน์สูงสุดต่อการตัดสินใจ

OpenAI เปิดตัว Voice Intelligence แปลภาษาเรียลไทม์กว่า 70 ภาษา

เปิดตัว 3 โมเดลใหม่ รองรับ AI เสียงครบวงจร

ข่าวที่เกี่ยวข้อง

ดัน AI “ฟัง-คิด-ตอบ” แบบมนุษย์มากขึ้น

เปิดทาง “Voice Agents” ยุคใหม่