
เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก
AWS รายงานเหตุศูนย์ข้อมูล AWS สหรัฐล่ม หลังข้อบกพร่องในระบบ DNS ของ DynamoDB จุดชนวนปัญหาลูกโซ่กระทบบริการคลาวด์หลายระบบทั่วโลก
KEY
POINTS
- ศูนย์ข้อมูล AWS ในรัฐเวอร์จิเนีย (us-east-1) เกิดเหตุขัดข้องจากข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ทำให้ข้อมูลการเชื่อมต่อที่สำคัญถูกลบออกไป
- ปัญหานี้ส่งผลกระทบเป็นวงกว้างไปยังบริการอื่น ๆ ที่พึ่งพา DynamoDB เช่น EC2, Lambda และ ECS ทำให้ระบบขององค์กรนับหมื่นแห่งทั่วโลกเกิดความล่าช้าหรือหยุดให้บริการชั่วคราว
- AWS ใช้เวลากว่า 14 ชั่วโมงในการกู้คืนระบบทั้งหมดให้กลับสู่ภาวะปกติ พร้อมประกาศมาตรการป้องกันโดยปรับปรุงระบบอัตโนมัติเพื่อไม่ให้เกิดเหตุซ้ำรอย
เหตุขัดข้องของระบบคลาวด์ Amazon Web Services (AWS) เมื่อวันที่ 19–20 ตุลาคมที่ผ่านมา กลายเป็นประเด็นใหญ่ในวงการเทคโนโลยีทั่วโลก หลังจากศูนย์ข้อมูลหลักในภูมิภาค Northern Virginia (us-east-1) ซึ่งเป็นศูนย์กลางการให้บริการของ AWS ในสหรัฐ ประสบเหตุระบบล่มต่อเนื่องหลายชั่วโมง ส่งผลกระทบต่อการทำงานของระบบคลาวด์ระดับโลกนับหมื่นองค์กร
รายงานของ AWS ระบุว่า ต้นเหตุของปัญหามาจาก ข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ซึ่งเกิดการทำงานผิดพลาดระหว่างระบบอัตโนมัติสองชุดที่บริหารจัดการระเบียนโดเมน ทำให้ข้อมูล DNS ที่เชื่อมโยงไปยังจุดให้บริการหลักถูกลบออกโดยไม่ได้ตั้งใจ
แม้วิศวกรของ AWS จะสามารถกู้คืนระบบหลักได้ในช่วงเช้าวันถัดมา แต่ผลกระทบได้ลุกลามไปยังบริการอื่นที่พึ่งพา DynamoDB โดยเฉพาะ Amazon EC2 ซึ่งใช้ฐานข้อมูลดังกล่าวในการจัดการเครื่องเซิร์ฟเวอร์เสมือน (instance) ทำให้กระบวนการเปิดใช้งานเครื่องใหม่ล่าช้า และบางส่วนเกิดการเชื่อมต่อขัดข้อง ขณะเดียวกันบริการ Network Load Balancer (NLB) ก็ได้รับผลกระทบจากความผิดพลาดของระบบตรวจสอบสถานะ (health check) จนเกิดภาวะเชื่อมต่อไม่เสถียร
การขัดข้องดังกล่าวยังส่งผลต่อเนื่องถึงบริการยอดนิยมของ AWS เช่น Lambda, ECS, EKS, Fargate, Redshift และ Amazon Connect ที่หลายองค์กรใช้เป็นโครงสร้างหลักในการดำเนินธุรกิจ ทำให้ระบบภายในของหลายบริษัททั่วโลกเกิดความล่าช้า และบางแห่งต้องหยุดให้บริการชั่วคราวเป็นเวลาหลายชั่วโมง
เหตุการณ์ครั้งนี้ตอกย้ำถึงความเปราะบางของโครงสร้างพื้นฐานดิจิทัลโลก ที่แม้แต่ระบบคลาวด์รายใหญ่ที่สุดยังสามารถสะดุดได้จากข้อผิดพลาดเพียงจุดเดียว ขณะเดียวกัน AWS ยืนยันว่าจะนำบทเรียนครั้งนี้มาปรับปรุงระบบให้มีความทนทานยิ่งขึ้น เพื่อรักษาความเชื่อมั่นของผู้ใช้งานกว่า 1 ล้านองค์กรทั่วโลก
ที่มา AWS







