เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก

23 ต.ค. 2568 | 11:00 น.
อัปเดตล่าสุด :23 ต.ค. 2568 | 11:15 น.

AWS รายงานเหตุศูนย์ข้อมูล AWS สหรัฐล่ม หลังข้อบกพร่องในระบบ DNS ของ DynamoDB จุดชนวนปัญหาลูกโซ่กระทบบริการคลาวด์หลายระบบทั่วโลก

KEY

POINTS

  • ศูนย์ข้อมูล AWS ในรัฐเวอร์จิเนีย (us-east-1) เกิดเหตุขัดข้องจากข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ทำให้ข้อมูลการเชื่อมต่อที่สำคัญถูกลบออกไป
  • ปัญหานี้ส่งผลกระทบเป็นวงกว้างไปยังบริการอื่น ๆ ที่พึ่งพา DynamoDB เช่น EC2, Lambda และ ECS ทำให้ระบบขององค์กรนับหมื่นแห่งทั่วโลกเกิดความล่าช้าหรือหยุดให้บริการชั่วคราว
  • AWS ใช้เวลากว่า 14 ชั่วโมงในการกู้คืนระบบทั้งหมดให้กลับสู่ภาวะปกติ พร้อมประกาศมาตรการป้องกันโดยปรับปรุงระบบอัตโนมัติเพื่อไม่ให้เกิดเหตุซ้ำรอย

เหตุขัดข้องของระบบคลาวด์ Amazon Web Services (AWS) เมื่อวันที่ 19–20 ตุลาคมที่ผ่านมา กลายเป็นประเด็นใหญ่ในวงการเทคโนโลยีทั่วโลก หลังจากศูนย์ข้อมูลหลักในภูมิภาค Northern Virginia (us-east-1) ซึ่งเป็นศูนย์กลางการให้บริการของ AWS ในสหรัฐ ประสบเหตุระบบล่มต่อเนื่องหลายชั่วโมง ส่งผลกระทบต่อการทำงานของระบบคลาวด์ระดับโลกนับหมื่นองค์กร

รายงานของ AWS ระบุว่า ต้นเหตุของปัญหามาจาก ข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ซึ่งเกิดการทำงานผิดพลาดระหว่างระบบอัตโนมัติสองชุดที่บริหารจัดการระเบียนโดเมน ทำให้ข้อมูล DNS ที่เชื่อมโยงไปยังจุดให้บริการหลักถูกลบออกโดยไม่ได้ตั้งใจ

เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก ส่งผลให้ทั้งลูกค้าและบริการภายในของ AWS ไม่สามารถเชื่อมต่อกับ DynamoDB ได้ในช่วงเวลาประมาณ 23.48 น. ตามเวลาแปซิฟิก

แม้วิศวกรของ AWS จะสามารถกู้คืนระบบหลักได้ในช่วงเช้าวันถัดมา แต่ผลกระทบได้ลุกลามไปยังบริการอื่นที่พึ่งพา DynamoDB โดยเฉพาะ Amazon EC2 ซึ่งใช้ฐานข้อมูลดังกล่าวในการจัดการเครื่องเซิร์ฟเวอร์เสมือน (instance) ทำให้กระบวนการเปิดใช้งานเครื่องใหม่ล่าช้า และบางส่วนเกิดการเชื่อมต่อขัดข้อง ขณะเดียวกันบริการ Network Load Balancer (NLB) ก็ได้รับผลกระทบจากความผิดพลาดของระบบตรวจสอบสถานะ (health check) จนเกิดภาวะเชื่อมต่อไม่เสถียร

การขัดข้องดังกล่าวยังส่งผลต่อเนื่องถึงบริการยอดนิยมของ AWS เช่น Lambda, ECS, EKS, Fargate, Redshift และ Amazon Connect ที่หลายองค์กรใช้เป็นโครงสร้างหลักในการดำเนินธุรกิจ ทำให้ระบบภายในของหลายบริษัททั่วโลกเกิดความล่าช้า และบางแห่งต้องหยุดให้บริการชั่วคราวเป็นเวลาหลายชั่วโมง

เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก AWS ใช้เวลารวมกว่า 14 ชั่วโมงในการฟื้นฟูระบบทั้งหมดกลับสู่สภาวะปกติเมื่อช่วงบ่ายของวันที่ 20 ตุลาคม พร้อมประกาศดำเนินมาตรการป้องกันเหตุซ้ำ โดยปิดระบบอัตโนมัติ DNS Planner และ DNS Enactor ชั่วคราว เพื่อปรับปรุงกระบวนการทำงาน เพิ่มกลไกตรวจสอบและสำรองข้อมูลก่อนเขียนทับในอนาคต

เหตุการณ์ครั้งนี้ตอกย้ำถึงความเปราะบางของโครงสร้างพื้นฐานดิจิทัลโลก ที่แม้แต่ระบบคลาวด์รายใหญ่ที่สุดยังสามารถสะดุดได้จากข้อผิดพลาดเพียงจุดเดียว ขณะเดียวกัน AWS ยืนยันว่าจะนำบทเรียนครั้งนี้มาปรับปรุงระบบให้มีความทนทานยิ่งขึ้น เพื่อรักษาความเชื่อมั่นของผู้ใช้งานกว่า 1 ล้านองค์กรทั่วโลก

ที่มา AWS