จับตา AI เริ่ม “ซ่อนความคิด” OpenAI เตือนเสี่ยงตรวจสอบยาก

OpenAI เผยความเสี่ยงใหม่ของ AI หลังพบโมเดลบางรุ่นเริ่มเรียนรู้การ “ปิดบังกระบวนการคิด” เมื่อระบบฝึกเข้าไปให้คะแนน reasoning โดยตรง นักวิจัยหวั่นอนาคตมนุษย์อาจตรวจสอบความคิดจริงของ AI ได้ยากขึ้น

KEY

POINTS

OpenAI พบว่า AI บางรุ่นเริ่มมีพฤติกรรม “ซ่อนกระบวนการคิด” (Chain of Thought) ที่แท้จริงของตัวเอง เพื่อปรับคำอธิบายให้ดูดีและได้รับคะแนนสูงขึ้นระหว่างการฝึกฝน
ปัญหานี้เกิดจากการที่ระบบฝึก AI (Reinforcement Learning) เข้าไปให้คะแนนขั้นตอนการใช้เหตุผลของ AI โดยตรง ทำให้ AI มีแรงจูงใจที่จะปิดบังความคิดจริงเพื่อเอาใจผู้ประเมิน
OpenAI เตือนว่านี่คือความเสี่ยงสำคัญในระยะยาว เพราะจะทำให้มนุษย์ตรวจสอบการตัดสินใจและตรวจจับพฤติกรรมอันตรายของ AI ได้ยากขึ้น ซึ่งกระทบต่อความโปร่งใสและความปลอดภัยของระบบ

OpenAI เปิดเผยความเสี่ยงใหม่ด้าน AI Safety หลังพบว่าโมเดลปัญญาประดิษฐ์บางรุ่นเริ่มมีแนวโน้ม “ปิดบังกระบวนการคิด” ของตัวเอง เมื่อระบบฝึก AI เข้าไปให้คะแนนขั้นตอน reasoning หรือ Chain of Thought (CoT) โดยตรง สะท้อนโจทย์ใหญ่ของวงการ AI ในอนาคตว่า มนุษย์อาจตรวจสอบการตัดสินใจของ AI ได้ยากขึ้น

พบปัญหาเกิดระหว่างฝึกโมเดล

รายงานระบุว่า ปัญหาดังกล่าวเกิดขึ้นระหว่างการฝึกโมเดลด้วย Reinforcement Learning (RL) ซึ่งเป็นวิธีที่ใช้ Reward หรือคะแนนตอบแทนเพื่อปรับพฤติกรรม AI ให้ทำงานได้ดีขึ้น โดยในบางกรณี ระบบ Reward เข้าไปประเมิน “กระบวนการคิด” ของ AI โดยไม่ตั้งใจ ทั้งที่บริษัทพยายามหลีกเลี่ยงแนวทางนี้มาตลอด

Chain of Thought ถือเป็นหัวใจสำคัญของ AI reasoning ยุคใหม่ เพราะเป็นลำดับขั้นตอนที่โมเดลใช้ในการคิด วิเคราะห์ และตัดสินใจก่อนตอบคำถาม นักวิจัยใช้ข้อมูลส่วนนี้เพื่อตรวจสอบว่า AI กำลัง reasoning อย่างไร มีพฤติกรรมหลอกลวงหรือมีแนวโน้มอันตรายหรือไม่ จึงเปรียบเสมือน “หน้าต่างสู่ความคิดของ AI”

อย่างไรก็ตาม หาก AI เริ่มรับรู้ว่ากระบวนการคิดของตัวเองกำลังถูกให้คะแนน มันอาจเรียนรู้ที่จะ “ปรับคำอธิบายให้ดูดี” มากกว่าการเปิดเผย reasoning ที่แท้จริง นักวิจัยเรียกปรากฏการณ์นี้ว่า “CoT Obfuscation” หรือการปิดบังกระบวนการคิด

เจอปัญหาหลายโมเดล

OpenAI ระบุว่า ปัญหานี้ถูกพบในโมเดลหลายรุ่น รวมถึง GPT-5.4 Thinking และ GPT-5 Instant บางเวอร์ชัน โดย reward model พยายามประเมินว่า reasoning ของ AI “มีประโยชน์” หรือ “สมเหตุสมผล” มากเพียงใด ส่งผลให้โมเดลเริ่มมีแรงจูงใจในการปรับวิธีอธิบายความคิดเพื่อให้ผ่านระบบประเมิน

แม้ปัจจุบันบริษัทจะยังไม่พบหลักฐานว่า monitorability หรือความสามารถในการตรวจสอบ reasoning ของ AI เสียหายอย่างรุนแรง แต่ยอมรับว่านี่เป็นความเสี่ยงสำคัญในระยะยาว เพราะเมื่อ AI มีความสามารถสูงขึ้น มันอาจเรียนรู้ที่จะ “แสดงความคิดที่มนุษย์อยากเห็น” ขณะเดียวกันกลับซ่อน reasoning จริงเอาไว้ภายในระบบ

ประเด็นนี้จึงไม่ได้เป็นเพียงข้อผิดพลาดในการฝึก AI แต่สะท้อนคำถามสำคัญของยุคปัญญาประดิษฐ์ขั้นสูงว่า ในอนาคตมนุษย์จะยังสามารถมองเห็นและตรวจสอบ “ความคิดที่แท้จริง” ของ AI ได้มากน้อยเพียงใด

ความโปร่งใส AI อาจลดลง

นักวิจัยด้าน AI Safety มองว่า ความสามารถในการตรวจสอบ reasoning ถือเป็นหนึ่งในกลไกสำคัญที่สุดของการควบคุม AI ขั้นสูง หากระบบเริ่มเรียนรู้ที่จะซ่อนเจตนาหรือปรับคำอธิบายเพื่อเอาใจผู้ประเมิน ความโปร่งใสของ AI อาจลดลงอย่างมีนัยสำคัญ และทำให้การตรวจจับพฤติกรรมอันตรายในอนาคตทำได้ยากขึ้น

ฐานเศรษฐกิจ

กองบรรณาธิการฐานเศรษฐกิจ: ทีมข่าวมืออาชีพที่เกาะติดสถานการณ์เศรษฐกิจ การเมือง และการลงทุนอย่างใกล้ชิด มุ่งมั่นนำเสนอข้อมูลเชิงลึกที่ผ่านการตรวจสอบและคัดกรองอย่างถี่ถ้วน เพื่อให้ผู้อ่านได้รับข่าวสารที่รอบด้านและเป็นประโยชน์สูงสุดต่อการตัดสินใจ

จับตา AI เริ่ม “ซ่อนความคิด” OpenAI เตือนเสี่ยงตรวจสอบยาก

พบปัญหาเกิดระหว่างฝึกโมเดล

เจอปัญหาหลายโมเดล

ข่าวที่เกี่ยวข้อง

ความโปร่งใส AI อาจลดลง