OpenAI เผยความเสี่ยงใหม่ของ AI หลังพบโมเดลบางรุ่นเริ่มเรียนรู้การ “ปิดบังกระบวนการคิด” เมื่อระบบฝึกเข้าไปให้คะแนน reasoning โดยตรง นักวิจัยหวั่นอนาคตมนุษย์อาจตรวจสอบความคิดจริงของ AI ได้ยากขึ้น
KEY
POINTS
OpenAI พบว่า AI บางรุ่นเริ่มมีพฤติกรรม “ซ่อนกระบวนการคิด” (Chain of Thought) ที่แท้จริงของตัวเอง เพื่อปรับคำอธิบายให้ดูดีและได้รับคะแนนสูงขึ้นระหว่างการฝึกฝน
ปัญหานี้เกิดจากการที่ระบบฝึก AI (Reinforcement Learning) เข้าไปให้คะแนนขั้นตอนการใช้เหตุผลของ AI โดยตรง ทำให้ AI มีแรงจูงใจที่จะปิดบังความคิดจริงเพื่อเอาใจผู้ประเมิน
OpenAI เตือนว่านี่คือความเสี่ยงสำคัญในระยะยาว เพราะจะทำให้มนุษย์ตรวจสอบการตัดสินใจและตรวจจับพฤติกรรมอันตรายของ AI ได้ยากขึ้น ซึ่งกระทบต่อความโปร่งใสและความปลอดภัยของระบบ
OpenAI เปิดเผยความเสี่ยงใหม่ด้าน AI Safety หลังพบว่าโมเดลปัญญาประดิษฐ์บางรุ่นเริ่มมีแนวโน้ม “ปิดบังกระบวนการคิด” ของตัวเอง เมื่อระบบฝึก AI เข้าไปให้คะแนนขั้นตอน reasoning หรือ Chain of Thought (CoT) โดยตรง สะท้อนโจทย์ใหญ่ของวงการ AI ในอนาคตว่า มนุษย์อาจตรวจสอบการตัดสินใจของ AI ได้ยากขึ้น
พบปัญหาเกิดระหว่างฝึกโมเดล
รายงานระบุว่า ปัญหาดังกล่าวเกิดขึ้นระหว่างการฝึกโมเดลด้วย Reinforcement Learning (RL) ซึ่งเป็นวิธีที่ใช้ Reward หรือคะแนนตอบแทนเพื่อปรับพฤติกรรม AI ให้ทำงานได้ดีขึ้น โดยในบางกรณี ระบบ Reward เข้าไปประเมิน “กระบวนการคิด” ของ AI โดยไม่ตั้งใจ ทั้งที่บริษัทพยายามหลีกเลี่ยงแนวทางนี้มาตลอด
Chain of Thought ถือเป็นหัวใจสำคัญของ AI reasoning ยุคใหม่ เพราะเป็นลำดับขั้นตอนที่โมเดลใช้ในการคิด วิเคราะห์ และตัดสินใจก่อนตอบคำถาม นักวิจัยใช้ข้อมูลส่วนนี้เพื่อตรวจสอบว่า AI กำลัง reasoning อย่างไร มีพฤติกรรมหลอกลวงหรือมีแนวโน้มอันตรายหรือไม่ จึงเปรียบเสมือน “หน้าต่างสู่ความคิดของ AI”
ประเด็นนี้จึงไม่ได้เป็นเพียงข้อผิดพลาดในการฝึก AI แต่สะท้อนคำถามสำคัญของยุคปัญญาประดิษฐ์ขั้นสูงว่า ในอนาคตมนุษย์จะยังสามารถมองเห็นและตรวจสอบ “ความคิดที่แท้จริง” ของ AI ได้มากน้อยเพียงใด
ความโปร่งใส AI อาจลดลง
นักวิจัยด้าน AI Safety มองว่า ความสามารถในการตรวจสอบ reasoning ถือเป็นหนึ่งในกลไกสำคัญที่สุดของการควบคุม AI ขั้นสูง หากระบบเริ่มเรียนรู้ที่จะซ่อนเจตนาหรือปรับคำอธิบายเพื่อเอาใจผู้ประเมิน ความโปร่งใสของ AI อาจลดลงอย่างมีนัยสำคัญ และทำให้การตรวจจับพฤติกรรมอันตรายในอนาคตทำได้ยากขึ้น