

KEY
POINTS
โรฮัน โดชิ (Rohan Doshi) ผู้จัดการฝ่ายผลิตภัณฑ์ของ กูเกิล ดีพมายด์ (Google DeepMind) เปิดตัวความสามารถใหม่ "Agentic Vision" ใน Gemini 3 Flash ที่เปลี่ยนรูปแบบการทำความเข้าใจรูปภาพจากเดิมที่เป็นการประมวลผลแบบนิ่ง (Static) ให้กลายเป็นการสืบสวนเชิงรุก (Active Investigation) โดยการใช้ระบบวางแผนและรันโค้ด Python เพื่อตรวจสอบรายละเอียดในภาพอย่างเป็นขั้นตอน
ระบบดังกล่าวทำงานผ่านลูป Think, Act และ Observe โดยโมเดลจะวิเคราะห์คำสั่ง (Think) จากนั้นสร้างโค้ดเพื่อจัดการภาพ เช่น การซูม (Crop) หรือการหมุน (Act) และนำภาพใหม่ที่ได้มาวิเคราะห์ต่อ (Observe) ซึ่งการเปิดใช้งานระบบรันโค้ดนี้ช่วยเพิ่มคุณภาพการตอบคำถามด้านการมองเห็นได้ถึง 5-10% ในการทดสอบส่วนใหญ่
ตัวอย่างการใช้งานที่โดดเด่นประกอบด้วย:
ปัจจุบัน Agentic Vision เปิดให้ใช้งานแล้วผ่าน Gemini API ใน Google AI Studio และ Vertex AI รวมถึงเริ่มทยอยเปิดให้ใช้ในแอปพลิเคชัน Gemini ผ่านเมนู "Thinking" โดยในอนาคตมีแผนจะขยายความสามารถนี้ไปยังโมเดลขนาดอื่นนอกเหนือจากรุ่น Flash ด้วย