KEY
POINTS
นายศศิณ พิมพ์ศิริ Machine Learning Engineer บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด หรือ ARVผู้เชี่ยวชาญด้านการพัฒนา หุ่นยนต์และปัญญาประดิษฐ์ขั้นสูง กล่าวว่า ARV ผนึกกำลังกับนักวิจัยผู้เชี่ยวชาญเฉพาะด้าน เพื่อพัฒนาเทคโนโลยีและงานวิจัยที่สามารถช่วยยกระดับความปลอดภัยบนท้องถนนได้
ซึ่งปัจจุบันพบว่าจำนวนยานพาหนะบนท้องถนนเพิ่มขึ้นอย่างต่อเนื่อง อุบัติเหตุและความปลอดภัยบนท้องถนนกลายเป็นโจทย์ ใหญ่ที่ทุกคนต้องเผชิญอย่างไม่สามารถหลีกเลี่ยงได้ แม้เทคโนโลยีที่มีอยู่เดิมอย่างกล้องตรวจจับความเร็ว หรือการบันทึกภาพนิ่งจะมีบทบาทสำคัญในการเฝ้าระวังและบันทึกเหตุการณ์บนท้องถนน แต่ยังคงมีข้อจำกัดในการวิเคราะห์เชิงพฤติกรรม ที่ช่วยคาดการณ์และป้องกันอุบัติเหตุได้ล่วงหน้า
ทั้งนี้การแก้ปัญหาจราจรที่ซับซ้อน ต้องอาศัยเทคโนโลยีที่สามารถ ‘เข้าใจ’ บริบทของเหตุการณ์บนท้องถนนได้อย่างลึกซึ้ง มากกว่าการ ‘มองเห็น’ ภาพเพียงผิวเผิน TrafficInternVL เป็นหนึ่งในเทคโนโลยี ที่เราภาคภูมิใจ ซึ่งถูกพัฒนาขึ้นเพื่อยกระดับศักยภาพของกล้องวงจรปิด ให้ก้าวไปอีกขั้น จากระบบเฝ้าระวังทั่วไป สู่เครื่องมืออัจฉริยะที่ช่วยวิเคราะห์ความเสี่ยงและตีความเหตุการณ์บนท้องถนนได้อย่างมีประสิทธิภาพมากขึ้น
สำหรับ “TrafficInternVL” คือเฟรมเวิร์กที่พัฒนาต่อยอดจากโมเดลภาษาและภาพ (Vision-Language Model) ชั้นนำ อย่าง InternVL-38B โดยทีมวิจัยได้ออกแบบสถาปัตยกรรมเสริมที่โดดเด่น 2 ส่วนหลักคือ Spatially-Guided Cropping เทคนิคการเลือกพื้นที่สำคัญของภาพในช่วงเวลาที่สนใจโดยอัตโนมัติ และ Caption Refinement กระบวนการกลั่นกรองและขัดเกลาคำบรรยายเหตุการณ์ให้มีความถูกต้องและชัดเจนสูงสุด
“หัวใจสำคัญของ TrafficInternVL คือการเปลี่ยนกระบวนทัศน์จากการตรวจจับที่ให้คำตอบได้เพียง "ใช่" หรือ "ไม่ใช่" ไปสู่การวิเคราะห์เชิงลึกที่เปรียบเสมือน "AI Chatbot" ด้านความปลอดภัยจราจร”
ทั้งนี้ระบบสามารถสร้างคำบรรยายวิดีโอแบบละเอียดและยาว (Dense Captioning) เพื่ออธิบายลำดับเหตุการณ์ ที่เกิดขึ้นก่อนอุบัติเหตุได้อย่างครอบคลุม ทั้งบริบทโดยรอบ พฤติกรรมของคนเดินเท้าและยานพาหนะจากกล้อง หลายมุมมอง
รวมทั้งสามารถตอบคำถามเฉพาะจุดเกี่ยวกับเหตุการณ์ (Visual Question Answering - VQA) ได้อย่าง แม่นยำ ซึ่งจะเข้ามามีบทบาทสำคัญในการสนับสนุนการตัดสินใจของศูนย์ควบคุมจราจร การประเมินความเสี่ยง ในพื้นที่สาธารณะ และยกระดับกระบวนการตรวจสอบในคดีประกันภัยให้รวดเร็วและเป็นธรรมยิ่งขึ้น
ด้านนายศรุต สรรพาวัตร วิศวกร (MLOPS Engineer) บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด กล่าวว่า แม้กระบวนการพัฒนา TrafficInternVL จะต้องเผชิญกับความท้าทายรอบด้าน ทั้งในด้านระยะเวลาที่จำกัด และความต้องการทรัพยากรฮาร์ดแวร์ประสิทธิภาพสูงอย่าง NVIDIA H100 ถึง 3 ตัวในการออกแบบสถาปัตยกรรม และปรับจูนโมเดล (Fine-tuning) แต่ด้วยความมุ่งมั่นของทีมงาน ทำให้โครงการสำเร็จลุล่วงได้ภายในระยะเวลา เพียงหนึ่งเดือน
โดย TrafficInternVL มีความสามารถในการสร้างคำบรรยายภาพ (Dense Captioning) ที่คะแนนเฉลี่ยสูงถึง 32.75 (วัดผลด้วยเกณฑ์ BLEU-4, METEOR, ROUGE-L, และ CIDEr*) และมีความแม่นยำในการตอบคำถามจากภาพ (VQA Accuracy) สูงถึง 83.08% ทำให้สามารถคว้าอันดับ 4
โดยผลงานชิ้นนี้ได้รับการยอมรับในเชิงวิชาการ โดยบทความวิจัย “TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering” โดยจะได้รับการตีพิมพ์และนำเสนอในงานประชุม ICCV 2025 ณ ศูนย์ประชุมฮาวาย (Hawaii Convention Center) เมืองโฮโนลูลู รัฐฮาวาย สหรัฐอเมริกาด้วย