Google เปิด Agentic Vision ใน Gemini 3 Flash เสริมมองเห็นแม่นยำขึ้น 10%

Google DeepMind ยกระดับการประมวลผลภาพ เปิดตัว Agentic Vision ผสานการใช้โค้ดช่วยให้การวิเคราะห์แม่นยำขึ้น 10%

KEY

POINTS

Google เปิดตัว "Agentic Vision" ใน Gemini 1.5 Flash ซึ่งเป็นเทคโนโลยีวิเคราะห์ภาพเชิงรุกโดยใช้โค้ด Python เพื่อตรวจสอบรายละเอียดในภาพอย่างเป็นขั้นตอน
ความสามารถใหม่นี้ช่วยเพิ่มความแม่นยำในการตอบคำถามเกี่ยวกับภาพได้ 5-10% โดยลดข้อผิดพลาดของ AI ในการนับจำนวนหรือคำนวณข้อมูลจากกราฟและตาราง
ตัวอย่างการใช้งานคือการซูมภาพเพื่อตรวจสอบรายละเอียดเฉพาะจุด การวาดกรอบหรือตัวเลขกำกับวัตถุบนภาพโดยตรงเพื่อความแม่นยำ

โรฮัน โดชิ (Rohan Doshi) ผู้จัดการฝ่ายผลิตภัณฑ์ของ กูเกิล ดีพมายด์ (Google DeepMind) เปิดตัวความสามารถใหม่ "Agentic Vision" ใน Gemini 3 Flash ที่เปลี่ยนรูปแบบการทำความเข้าใจรูปภาพจากเดิมที่เป็นการประมวลผลแบบนิ่ง (Static) ให้กลายเป็นการสืบสวนเชิงรุก (Active Investigation) โดยการใช้ระบบวางแผนและรันโค้ด Python เพื่อตรวจสอบรายละเอียดในภาพอย่างเป็นขั้นตอน

ระบบดังกล่าวทำงานผ่านลูป Think, Act และ Observe โดยโมเดลจะวิเคราะห์คำสั่ง (Think) จากนั้นสร้างโค้ดเพื่อจัดการภาพ เช่น การซูม (Crop) หรือการหมุน (Act) และนำภาพใหม่ที่ได้มาวิเคราะห์ต่อ (Observe) ซึ่งการเปิดใช้งานระบบรันโค้ดนี้ช่วยเพิ่มคุณภาพการตอบคำถามด้านการมองเห็นได้ถึง 5-10% ในการทดสอบส่วนใหญ่

ตัวอย่างการใช้งานที่โดดเด่นประกอบด้วย:

การซูมตรวจสอบ: แพลตฟอร์ม PlanCheckSolver.com ใช้การรันโค้ดใน Gemini 3 Flash เพื่อตัดภาพเฉพาะจุด เช่น ขอบหลังคาอาคาร มาวิเคราะห์ความถูกต้องตามกฎหมายก่อสร้าง ช่วยเพิ่มความแม่นยำได้ 5%
การเขียนคำบรรยายบนภาพ: โมเดลสามารถวาดกรอบ (Bounding Box) หรือใส่ตัวเลขกำกับสิ่งที่นับได้โดยตรง เพื่อป้องกันความผิดพลาดในการนับจำนวนผ่านภาพ
คณิตศาสตร์ผ่านภาพ: แก้ปัญหาการ "หลอน" (Hallucination) ของ AI เมื่อต้องคำนวณตัวเลขจากตารางหรือแผนภูมิ โดยโมเดลจะเขียนโค้ด Python เพื่อประมวลผลข้อมูลและสร้างกราฟใหม่ที่ถูกต้องแทนการคาดเดา

ปัจจุบัน Agentic Vision เปิดให้ใช้งานแล้วผ่าน Gemini API ใน Google AI Studio และ Vertex AI รวมถึงเริ่มทยอยเปิดให้ใช้ในแอปพลิเคชัน Gemini ผ่านเมนู "Thinking" โดยในอนาคตมีแผนจะขยายความสามารถนี้ไปยังโมเดลขนาดอื่นนอกเหนือจากรุ่น Flash ด้วย

ฐานเศรษฐกิจ

กองบรรณาธิการฐานเศรษฐกิจ: ทีมข่าวมืออาชีพที่เกาะติดสถานการณ์เศรษฐกิจ การเมือง และการลงทุนอย่างใกล้ชิด มุ่งมั่นนำเสนอข้อมูลเชิงลึกที่ผ่านการตรวจสอบและคัดกรองอย่างถี่ถ้วน เพื่อให้ผู้อ่านได้รับข่าวสารที่รอบด้านและเป็นประโยชน์สูงสุดต่อการตัดสินใจ

Google เปิด Agentic Vision ใน Gemini 3 Flash เสริมมองเห็นแม่นยำขึ้น 10%

Google DeepMind ยกระดับการประมวลผลภาพ เปิดตัว Agentic Vision ผสานการใช้โค้ดช่วยให้การวิเคราะห์แม่นยำขึ้น 10%

ข่าวที่เกี่ยวข้อง