เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก

AWS รายงานเหตุศูนย์ข้อมูล AWS สหรัฐล่ม หลังข้อบกพร่องในระบบ DNS ของ DynamoDB จุดชนวนปัญหาลูกโซ่กระทบบริการคลาวด์หลายระบบทั่วโลก

KEY

POINTS

ศูนย์ข้อมูล AWS ในรัฐเวอร์จิเนีย (us-east-1) เกิดเหตุขัดข้องจากข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ทำให้ข้อมูลการเชื่อมต่อที่สำคัญถูกลบออกไป
ปัญหานี้ส่งผลกระทบเป็นวงกว้างไปยังบริการอื่น ๆ ที่พึ่งพา DynamoDB เช่น EC2, Lambda และ ECS ทำให้ระบบขององค์กรนับหมื่นแห่งทั่วโลกเกิดความล่าช้าหรือหยุดให้บริการชั่วคราว
AWS ใช้เวลากว่า 14 ชั่วโมงในการกู้คืนระบบทั้งหมดให้กลับสู่ภาวะปกติ พร้อมประกาศมาตรการป้องกันโดยปรับปรุงระบบอัตโนมัติเพื่อไม่ให้เกิดเหตุซ้ำรอย

เหตุขัดข้องของระบบคลาวด์ Amazon Web Services (AWS) เมื่อวันที่ 19–20 ตุลาคมที่ผ่านมา กลายเป็นประเด็นใหญ่ในวงการเทคโนโลยีทั่วโลก หลังจากศูนย์ข้อมูลหลักในภูมิภาค Northern Virginia (us-east-1) ซึ่งเป็นศูนย์กลางการให้บริการของ AWS ในสหรัฐ ประสบเหตุระบบล่มต่อเนื่องหลายชั่วโมง ส่งผลกระทบต่อการทำงานของระบบคลาวด์ระดับโลกนับหมื่นองค์กร

รายงานของ AWS ระบุว่า ต้นเหตุของปัญหามาจาก ข้อบกพร่องในระบบจัดการ DNS ของบริการฐานข้อมูล DynamoDB ซึ่งเกิดการทำงานผิดพลาดระหว่างระบบอัตโนมัติสองชุดที่บริหารจัดการระเบียนโดเมน ทำให้ข้อมูล DNS ที่เชื่อมโยงไปยังจุดให้บริการหลักถูกลบออกโดยไม่ได้ตั้งใจ

เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก ส่งผลให้ทั้งลูกค้าและบริการภายในของ AWS ไม่สามารถเชื่อมต่อกับ DynamoDB ได้ในช่วงเวลาประมาณ 23.48 น. ตามเวลาแปซิฟิก

แม้วิศวกรของ AWS จะสามารถกู้คืนระบบหลักได้ในช่วงเช้าวันถัดมา แต่ผลกระทบได้ลุกลามไปยังบริการอื่นที่พึ่งพา DynamoDB โดยเฉพาะ Amazon EC2 ซึ่งใช้ฐานข้อมูลดังกล่าวในการจัดการเครื่องเซิร์ฟเวอร์เสมือน (instance) ทำให้กระบวนการเปิดใช้งานเครื่องใหม่ล่าช้า และบางส่วนเกิดการเชื่อมต่อขัดข้อง ขณะเดียวกันบริการ Network Load Balancer (NLB) ก็ได้รับผลกระทบจากความผิดพลาดของระบบตรวจสอบสถานะ (health check) จนเกิดภาวะเชื่อมต่อไม่เสถียร

การขัดข้องดังกล่าวยังส่งผลต่อเนื่องถึงบริการยอดนิยมของ AWS เช่น Lambda, ECS, EKS, Fargate, Redshift และ Amazon Connect ที่หลายองค์กรใช้เป็นโครงสร้างหลักในการดำเนินธุรกิจ ทำให้ระบบภายในของหลายบริษัททั่วโลกเกิดความล่าช้า และบางแห่งต้องหยุดให้บริการชั่วคราวเป็นเวลาหลายชั่วโมง

เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก AWS ใช้เวลารวมกว่า 14 ชั่วโมงในการฟื้นฟูระบบทั้งหมดกลับสู่สภาวะปกติเมื่อช่วงบ่ายของวันที่ 20 ตุลาคม พร้อมประกาศดำเนินมาตรการป้องกันเหตุซ้ำ โดยปิดระบบอัตโนมัติ DNS Planner และ DNS Enactor ชั่วคราว เพื่อปรับปรุงกระบวนการทำงาน เพิ่มกลไกตรวจสอบและสำรองข้อมูลก่อนเขียนทับในอนาคต

เหตุการณ์ครั้งนี้ตอกย้ำถึงความเปราะบางของโครงสร้างพื้นฐานดิจิทัลโลก ที่แม้แต่ระบบคลาวด์รายใหญ่ที่สุดยังสามารถสะดุดได้จากข้อผิดพลาดเพียงจุดเดียว ขณะเดียวกัน AWS ยืนยันว่าจะนำบทเรียนครั้งนี้มาปรับปรุงระบบให้มีความทนทานยิ่งขึ้น เพื่อรักษาความเชื่อมั่นของผู้ใช้งานกว่า 1 ล้านองค์กรทั่วโลก

ที่มา AWS

ฐานเศรษฐกิจ

กองบรรณาธิการฐานเศรษฐกิจ: ทีมข่าวมืออาชีพที่เกาะติดสถานการณ์เศรษฐกิจ การเมือง และการลงทุนอย่างใกล้ชิด มุ่งมั่นนำเสนอข้อมูลเชิงลึกที่ผ่านการตรวจสอบและคัดกรองอย่างถี่ถ้วน เพื่อให้ผู้อ่านได้รับข่าวสารที่รอบด้านและเป็นประโยชน์สูงสุดต่อการตัดสินใจ

เจาะลึกเบื้องหลังศูนย์ข้อมูล AWS ล่ม สะเทือนบริการดิจิทัลโลก

ข่าวที่เกี่ยวข้อง