KEY
POINTS
เหตุขัดข้องของระบบคลาวด์ Amazon Web Services (AWS) เมื่อวันที่ 19–20 ตุลาคมที่ผ่านมา กลายเป็นประเด็นใหญ่ในวงการเทคโนโลยีทั่วโลก หลังจากศูนย์ข้อมูลหลักในภูมิภาค Northern Virginia (us-east-1) ซึ่งเป็นศูนย์กลางการให้บริการของ AWS ในสหรัฐ ประสบเหตุระบบล่มต่อเนื่องหลายชั่วโมง ส่งผลกระทบต่อการทำงานของระบบคลาวด์ระดับโลกนับหมื่นองค์กร
รายงานของ AWS ระบุว่า ต้นเหตุของปัญหามาจาก ข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ซึ่งเกิดการทำงานผิดพลาดระหว่างระบบอัตโนมัติสองชุดที่บริหารจัดการระเบียนโดเมน ทำให้ข้อมูล DNS ที่เชื่อมโยงไปยังจุดให้บริการหลักถูกลบออกโดยไม่ได้ตั้งใจ
แม้วิศวกรของ AWS จะสามารถกู้คืนระบบหลักได้ในช่วงเช้าวันถัดมา แต่ผลกระทบได้ลุกลามไปยังบริการอื่นที่พึ่งพา DynamoDB โดยเฉพาะ Amazon EC2 ซึ่งใช้ฐานข้อมูลดังกล่าวในการจัดการเครื่องเซิร์ฟเวอร์เสมือน (instance) ทำให้กระบวนการเปิดใช้งานเครื่องใหม่ล่าช้า และบางส่วนเกิดการเชื่อมต่อขัดข้อง ขณะเดียวกันบริการ Network Load Balancer (NLB) ก็ได้รับผลกระทบจากความผิดพลาดของระบบตรวจสอบสถานะ (health check) จนเกิดภาวะเชื่อมต่อไม่เสถียร
การขัดข้องดังกล่าวยังส่งผลต่อเนื่องถึงบริการยอดนิยมของ AWS เช่น Lambda, ECS, EKS, Fargate, Redshift และ Amazon Connect ที่หลายองค์กรใช้เป็นโครงสร้างหลักในการดำเนินธุรกิจ ทำให้ระบบภายในของหลายบริษัททั่วโลกเกิดความล่าช้า และบางแห่งต้องหยุดให้บริการชั่วคราวเป็นเวลาหลายชั่วโมง
เหตุการณ์ครั้งนี้ตอกย้ำถึงความเปราะบางของโครงสร้างพื้นฐานดิจิทัลโลก ที่แม้แต่ระบบคลาวด์รายใหญ่ที่สุดยังสามารถสะดุดได้จากข้อผิดพลาดเพียงจุดเดียว ขณะเดียวกัน AWS ยืนยันว่าจะนำบทเรียนครั้งนี้มาปรับปรุงระบบให้มีความทนทานยิ่งขึ้น เพื่อรักษาความเชื่อมั่นของผู้ใช้งานกว่า 1 ล้านองค์กรทั่วโลก
ที่มา AWS