thansettakij
thansettakij
Google เปิดตัว Gemini Omni พลิกโฉมวงการสร้าง-ตัดต่อวิดีโอด้วย AI

Google เปิดตัว Gemini Omni พลิกโฉมวงการสร้าง-ตัดต่อวิดีโอด้วย AI

21 พ.ค. 69 | 05:34 น.
อัปเดตล่าสุด :21 พ.ค. 69 | 05:43 น.

Google ประกาศเปิดตัว Gemini Omni โมเดล AI Multimodal รุ่นใหม่ล่าสุด ปลดล็อกความสามารถการสร้างสรรค์วิดีโอจากข้อมูลนำเข้าทุกรูปแบบ พร้อมเปิดให้ใช้งานโมเดลเวอร์ชันแรก Gemini Omni Flash แล้ววันนี้

KEY

POINTS

  • Google เปิดตัว Gemini Omni โมเดล AI ใหม่ที่สามารถสร้างวิดีโอคุณภาพสูงจากข้อมูลหลากหลายรูปแบบ และแก้ไขได้อย่างง่ายดายผ่านการสั่งงานด้วยภาษาธรรมชาติ
  • ตัวโมเดลถูกสร้างให้เป็น "World Model" ที่มีความเข้าใจในกฎฟิสิกส์และบริบทของโลกจริง ทำให้วิดีโอที่สร้างมีความสมจริงและแม่นยำสูง
  • วิดีโอที่สร้างขึ้นจะมีการฝังลายน้ำดิจิทัล SynthID เพื่อความโปร่งใส โดยจะเริ่มทยอยเปิดให้ใช้งานในบริการต่างๆ ของ Google เช่น YouTube Shorts และ YouTube Create

โคเรย์ คาวุกชูโอกลู (Koray Kavukcuoglu) ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Google DeepMind และหัวหน้านักออกแบบสถาปัตยกรรม AI ของ Google เปิดเผยว่า Google กำลังแนะนำ Gemini Omni ที่มีความสามารถในการใช้เหตุผลของ Gemini มาพบกับความสามารถในการสร้างสรรค์

โดย Gemini Omni เป็นโมเดลใหม่ล่าสุดที่สามารถสร้างสรรค์สิ่งใดก็ได้จากข้อมูลนำเข้าทุกรูปแบบ และเริ่มต้นด้วยวิดีโอ ซึ่งผู้ใช้งานสามารถผสมผสานรูปภาพ เสียง วิดีโอ และข้อความเข้าด้วยกันเป็นข้อมูลนำเข้า เพื่อสร้างวิดีโอคุณภาพสูงที่มีพื้นฐานมาจากความรู้ในโลกแห่งความเป็นจริงของ Gemini

"ในปีที่ผ่านมา นาโน บานานา (Nano Banana) ได้นำความอัจฉริยะของ Gemini มาสู่การสร้างและการแก้ไขรูปภาพ ซึ่งช่วยให้ผู้คนหลายล้านคนสามารถฟื้นฟูภาพถ่ายเก่า ออกแบบจากภาพสเก็ตช์ และจินตนาการถึงไอเดียต่างๆ ในรูปแบบที่ไม่เคยเป็นไปได้มาก่อน โดยนับตั้งแต่เริ่มต้น ทาง Google ได้สร้าง Gemini ให้เป็น Multimodal มาตั้งแต่แรกเริ่ม และในตอนนี้กำลังก้าวไปอีกขั้น"

 

 

โครงสร้างโมเดลสร้างโลกเสมือนจริงด้วยเหตุผล

Google เปิดตัว Gemini Omni พลิกโฉมวงการสร้าง-ตัดต่อวิดีโอด้วย AI นอกจากนี้ Gemini Omni ยังถูกสร้างขึ้นมาในลักษณะของโมเดลจำลองโลก (World Model) ที่ไม่ได้เพียงแค่สร้างพิกเซลให้ดูสวยงามเท่านั้น แต่ตัวโมเดลมีความเข้าใจกฎฟิสิกส์พื้นฐานในโลกความเป็นจริง ไม่ว่าจะเป็นเรื่องของแรงโน้มถ่วง การเคลื่อนที่ พลศาสตร์ของของไหล และเวลา ส่งผลให้วิดีโอที่เจเนอเรตออกมามีความสมจริงและแม่นยำ ยิ่งไปกว่านั้นตัวโมเดลยังมีความเข้าใจในบริบททางประวัติศาสตร์ วัฒนธรรม และวิทยาศาสตร์ ทำให้เนื้อหาของวิดีโอที่สร้างขึ้นมีความถูกต้องตามองค์ความรู้ในโลกความเป็นจริง

ระบบสั่งการตัดต่อวิดีโอด้วยภาษาธรรมชาติ

สำหรับความสามารถที่เป็นจุดเด่นสำคัญของ Gemini Omni คือการแก้ไขวิดีโอผ่านกระบวนการสนทนา (Conversational Video Editing) ซึ่งช่วยให้ผู้ใช้งานมีวิธีที่ง่ายขึ้นในการปรับแต่งวิดีโอด้วยการใช้ภาษาธรรมชาติ โดยการป้อนคำสั่งในแต่ละครั้งจะทำงานแบบสะสมและต่อยอดจากคำสั่งก่อนหน้า ส่งผลให้ตัวละครภายในวิดีโอสามารถรักษาความสอดคล้องของรูปลักษณ์ไว้ได้ กฎทางฟิสิกส์ในฉากยังคงรองรับโครงสร้างเดิม และฉากต่างๆ สามารถจดจำสิ่งที่เกิดขึ้นก่อนหน้านี้ได้

 

ระบบนี้จะช่วยให้ผู้ใช้งานสามารถพลิกโฉมโลกรอบตัว เปลี่ยนแปลงสิ่งเฉพาะเจาะจงบางจุด หรือเลือกที่จะเปลี่ยนทุกสิ่งทุกอย่าง เพื่อให้วิดีโอต้นฉบับกลายเป็นจุดเริ่มต้นของสิ่งใหม่ที่ไม่เคยสามารถถ่ายทำได้ด้วยตัวเองมาก่อน

Google เปิดตัว Gemini Omni พลิกโฉมวงการสร้าง-ตัดต่อวิดีโอด้วย AI

สร้างอวตารจำลองสมจริงสูง

นอกจากนี้ ตัวโมเดลยังมีขีดความสามารถในการสร้างอวตารจำลอง (AI-generated Avatars) ที่มีความสมจริงสูง โดยสร้างตัวตนดิจิทัลที่มีการเคลื่อนไหวของใบหน้า ท่าทางที่เป็นธรรมชาติ พร้อมทั้งรองรับการสร้างเสียงสังเคราะห์ที่เลียนแบบโทนเสียงและจังหวะการพูดของมนุษย์ได้อย่างแนบเนียน เพื่อนำไปใช้เป็นผู้ดำเนินรายการหรือตัวละครในวิดีโอได้

แผนการเปิดใช้งานและมาตรการความปลอดภัย SynthID

ในส่วนของแผนการเปิดให้บริการนั้น วันนี้ทาง Google ได้เริ่มทยอยเปิดตัวโมเดลแรกในตระกูลออมนิ คือ Gemini Omni Flash ไปยังแอป Gemini,  Google Flow และ YouTube Shorts สำหรับกลุ่มผู้ใช้งานที่สมัครสมาชิกบริการ Google AI Plus, Pro และ Ultra และจะเปิดให้ใช้งานบนแอปพลิเคชัน YouTube Create โดยไม่มีค่าใช้จ่ายเพิ่มเติมภายในสัปดาห์นี้ หลังจากนั้นจะเปิดให้กลุ่มนักพัฒนาและลูกค้าองค์กรเข้าใช้งานผ่าน Gemini API ในอีกไม่กี่สัปดาห์ข้างหน้า ซึ่งในอนาคตตัวโมเดลจะขยายการรองรับรูปแบบข้อมูลส่งออก (Output Modalities) อื่นๆ เพิ่มเติม เช่น รูปภาพและเสียง

ด้านความปลอดภัยและความโปร่งใสของเนื้อหา Google ได้กำหนดให้วิดีโอทั้งหมดที่ถูกสร้างสรรค์ขึ้นผ่านโมเดล Gemini Omni จะต้องได้รับการฝังลายน้ำดิจิทัลภายใต้เทคโนโลยี SynthID ซึ่งพัฒนาโดย Google DeepMind โดยลายน้ำนี้จะติดอยู่กับไฟล์วิดีโอและไม่สามารถลบออกได้ เพื่อช่วยให้แพลตฟอร์มต่างๆ และผู้บริโภคข้อมูลสามารถตรวจสอบและระบุได้อย่างชัดเจนว่าวิดีโอดังกล่าวเป็นสื่อที่ถูกเจเนอเรตขึ้นด้วยเทคโนโลยี AI เพื่อป้องกันการนำไปใช้ในทางที่ผิดและการแพร่กระจายข้อมูลเท็จในโลกออนไลน์