thansettakij
Google เปิด Agentic Vision ใน Gemini 3 Flash เสริมมองเห็นแม่นยำขึ้น 10%

Google เปิด Agentic Vision ใน Gemini 3 Flash เสริมมองเห็นแม่นยำขึ้น 10%

29 ม.ค. 2569 | 05:29 น.
อัปเดตล่าสุด :29 ม.ค. 2569 | 06:00 น.

Google DeepMind ยกระดับการประมวลผลภาพ เปิดตัว Agentic Vision ผสานการใช้โค้ดช่วยให้การวิเคราะห์แม่นยำขึ้น 10%

KEY

POINTS

  • Google เปิดตัว "Agentic Vision" ใน Gemini 1.5 Flash ซึ่งเป็นเทคโนโลยีวิเคราะห์ภาพเชิงรุกโดยใช้โค้ด Python เพื่อตรวจสอบรายละเอียดในภาพอย่างเป็นขั้นตอน
  • ความสามารถใหม่นี้ช่วยเพิ่มความแม่นยำในการตอบคำถามเกี่ยวกับภาพได้ 5-10% โดยลดข้อผิดพลาดของ AI ในการนับจำนวนหรือคำนวณข้อมูลจากกราฟและตาราง
  • ตัวอย่างการใช้งานคือการซูมภาพเพื่อตรวจสอบรายละเอียดเฉพาะจุด การวาดกรอบหรือตัวเลขกำกับวัตถุบนภาพโดยตรงเพื่อความแม่นยำ

โรฮัน โดชิ (Rohan Doshi) ผู้จัดการฝ่ายผลิตภัณฑ์ของ กูเกิล ดีพมายด์ (Google DeepMind) เปิดตัวความสามารถใหม่ "Agentic Vision" ใน Gemini 3 Flash ที่เปลี่ยนรูปแบบการทำความเข้าใจรูปภาพจากเดิมที่เป็นการประมวลผลแบบนิ่ง (Static) ให้กลายเป็นการสืบสวนเชิงรุก (Active Investigation) โดยการใช้ระบบวางแผนและรันโค้ด Python เพื่อตรวจสอบรายละเอียดในภาพอย่างเป็นขั้นตอน

ระบบดังกล่าวทำงานผ่านลูป Think, Act และ Observe โดยโมเดลจะวิเคราะห์คำสั่ง (Think) จากนั้นสร้างโค้ดเพื่อจัดการภาพ เช่น การซูม (Crop) หรือการหมุน (Act) และนำภาพใหม่ที่ได้มาวิเคราะห์ต่อ (Observe) ซึ่งการเปิดใช้งานระบบรันโค้ดนี้ช่วยเพิ่มคุณภาพการตอบคำถามด้านการมองเห็นได้ถึง 5-10% ในการทดสอบส่วนใหญ่

ตัวอย่างการใช้งานที่โดดเด่นประกอบด้วย:

Google เปิด Agentic Vision ใน Gemini 3 Flash เสริมมองเห็นแม่นยำขึ้น 10%

  1. การซูมตรวจสอบ: แพลตฟอร์ม PlanCheckSolver.com ใช้การรันโค้ดใน Gemini 3 Flash เพื่อตัดภาพเฉพาะจุด เช่น ขอบหลังคาอาคาร มาวิเคราะห์ความถูกต้องตามกฎหมายก่อสร้าง ช่วยเพิ่มความแม่นยำได้ 5%
  2. การเขียนคำบรรยายบนภาพ: โมเดลสามารถวาดกรอบ (Bounding Box) หรือใส่ตัวเลขกำกับสิ่งที่นับได้โดยตรง เพื่อป้องกันความผิดพลาดในการนับจำนวนผ่านภาพ
  3. คณิตศาสตร์ผ่านภาพ: แก้ปัญหาการ "หลอน" (Hallucination) ของ AI เมื่อต้องคำนวณตัวเลขจากตารางหรือแผนภูมิ โดยโมเดลจะเขียนโค้ด Python เพื่อประมวลผลข้อมูลและสร้างกราฟใหม่ที่ถูกต้องแทนการคาดเดา

ปัจจุบัน Agentic Vision เปิดให้ใช้งานแล้วผ่าน Gemini API ใน Google AI Studio และ Vertex AI รวมถึงเริ่มทยอยเปิดให้ใช้ในแอปพลิเคชัน Gemini ผ่านเมนู "Thinking" โดยในอนาคตมีแผนจะขยายความสามารถนี้ไปยังโมเดลขนาดอื่นนอกเหนือจากรุ่น Flash ด้วย