ถอดบทเรียน Global Outage: Blue Screen of Death (BSOD)

Share on Facebook
Share on Linkedin
Share on Twitter

เมื่อวันศุกร์ที่ 19 กรกฎาคม 2024 ได้มีปรากฏการณ์การล่มของระบบปฏิบัติการ Windows ครั้งที่ใหญ่ที่สุด สร้างผลกระทบให้อุปกรณ์กว่า 8.5 ล้านเครื่องทั่วโลก หยุดชะงัก ใช้การไม่ได้ ธุรกิจในหลายอุตสาหกรรมได้รับผลกระทบอย่างหนัก ไม่ว่าจะเป็นธนาคาร โรงงานอุตสาหกรรม ธุรกิจสุขภาพและโรงพยาบาล แม้แต่ธุรกิจสายการบินเองก็ได้รับผลอย่างหนัก ก่อให้เกิดการดีเลย์ของเที่ยวบินขึ้นหลายเที่ยวบิน สนามบินบางสนามบินต้องหยุดทำการ ซึ่งเหตุการณ์นี้เป็นเหตุการณ์ที่ไม่มีใครคาดคิด และไม่สามารถรู้ตัวก่อน และหลีกเลี่ยงได้ทัน แน่นอนว่าผู้ใช้บริการของบริษัท ไซเบอร์ อีลีท เองก็ได้รับผลกระทบจากเหตุการณ์ในครั้งนี้ไม่น้อยเช่นกัน ซึ่งเรา ในฐานะผู้เชี่ยวชาญด้านความมั่นคงปลอดภัยไซเบอร์ ที่ให้บริการตลอด 24 ชั่วโมง ได้เข้าไปช่วยเหลือผู้ใช้บริการในการแก้ปัญหาตั้งแต่เกิดเหตุ จนกระทั่งเหตุการณ์สงบลง

เกิดอะไรขึ้น ?

ในวันดังกล่าว เวลา 04:09 UTC หรือประมาณ 11 โมงประเทศไทย CrowdStrike ได้ดำเนินการปล่อย Configuration Update ที่ในบทความนี้เราจะเรียกว่า การกำหนดค่าการใช้งาน ซึ่งเป้าประสงค์ของการกำหนดค่าการใช้งานใหม่นี้ ก็เพื่อส่งข้อมูลให้ Sensor บนอุปกรณ์ของผู้ใช้งาน ให้มีข้อมูลล่าสุดเกี่ยวกับภัยคุกคามใหม่ๆ ที่ถูกค้นพบ ซึ่งกระบวนการอัปเดตนี้เป็นกระบวนการที่ผู้ให้บริการอย่าง CrowdStrike ทำอย่างต่อเนื่อง เป็นประจำ เพื่อให้มั่นใจในประสิทธิภาพของการปกป้องอุปกรณ์ อยู่ในระดับที่สูงตลอดเวลา

 

แต่การอัปเดตในครั้งนี้ไม่เหมือนในทุกครั้งที่ผ่านมา เพราะการอัปเดตครั้งนี้เป็นการส่งการกำหนดค่าที่มีตรรกะที่ผิดพลาด และรบกวนการทำงานของระบบปฏิบัติการ Windows จนสร้างผลกระทบในเชิงลบให้เกิดขึ้น ทำให้อุปกรณ์กว่า 8.5 ล้านเครื่องหยุดทำงานลงกะทันหัน เกิดปรากฎการณ์จอฟ้า ดังที่เห็นเป็นข่าวในช่วงเวลาที่ผ่านมา ส่งผลกระทบทางลบให้กับเครื่องที่ใช้ระบบปฏิบัติการ Windows ที่ออนไลน์ตั้งแต่ 04:09 ไปจนถึง 05:27 UTC โดยอุปกรณ์ที่ไม่ได้ออนไลน์ในช่วงเวลาดังกล่าวไม่ได้รับผลกระทบ รวมถึงระบบปฏิบัติการ IOS และ Linux เองก็เช่นกัน (อ้างอิง 1)

ผลกระทบที่เกิดขึ้น

อุปกรณ์ประมาณ 8.5 ล้านอุปกรณ์ได้รับผลกระทบและหยุดชะงักลง ซึ่งนับเป็น 1% จากจำนวนผู้ใช้งานระบบปฏิบัติการ Windows ทั้งหมดทั่วโลก ซึ่งเป็นตัวเลขจำนวนอุปกรณ์ที่สำรวจมาแล้วจากทุกอุตสาหกรรม ทุกธุรกิจ และมีการสำรวจมูลค่าความเสียหายจากบริษัทที่อยู่ในกลุ่ม Fortune 500 ว่ามีมูลค่าความเสียหายตีเป็นเงินสูงถึง 5.4 พันล้านดอลลาร์สหรัฐ (อ้างอิง 2) ซึ่งผลกระทบที่เกิดขึ้นกับธุรกิจก็มีรูปแบบที่แตกต่างกันออกไป เช่น

 

ธุรกิจการบิน เหตุการณ์นี้ส่งผลกระทบให้เที่ยวบินกว่า 1000 เที่ยวบินทั่วโลกต้องหยุดชะงักลงหรือถูกดีเลย์ กว่า 10,000 เที่ยวบินถูกยกเลิก ซึ่งตัวเลขนี้รวมสายการบินใหญ่ๆ มีชื่อเสียงระดับโลกอย่าง Delta, United and American Airlines นอกจากสายการบิน สนามบินเองก็ถูกสถานการณ์บังคับให้หยุดการทำงานลงจนกว่าระบบจะกลับมาใช้งานได้ตามปกติ สำหรับประเทศไทยเองก็มีสายการบินและสนามบินที่ได้รับผลกระทบเช่นกัน ไม่ว่าจะเป็น Thai Air Asia, Jetstar Asia, Firefly Airlines, Scoot และอื่นๆ

 

ธุรกิจสุขภาพ โรงพยาบาลและคลินิกทั่วโลกได้รับผลกระทบเช่นกัน โดยเฉพาะกับระบบนัดหมายทำให้เกิดความล่าช้าและต้องยกเลิกนัดหมาย ในบางพื้นที่ก็มีผลกระทบกับระบบแจ้งเหตุด่วน เหตุฉุกเฉินอย่าง 911 อีกด้วย ซึ่งเหตุการณ์นี้เกิดขึ้นในรัฐอลาสก้า อินเดียนาของสหรัฐอเมริกา

 

ธุรกิจการเงิน บริการ Online Banking ของหลายธนาคารและหน่วยงานทางการเงินได้รับผลกระทบ รวมถึงบริการทำธุรกรรมทางการเงินอื่นๆ ด้วยเช่นกัน มีรายงานจากผู้ใช้งานหลายรายแจ้งว่าไม่ได้รับเงินในเวลาที่ควรจะได้รับ

 

ธุรกิจบันเทิง สื่อจากสถานีโทรทัศน์วิทยุหลายแห่งทั่วโลก รวมถึงผู้ให้บริการโฆษณาดิจิทัล บิลบอร์ด สื่อหลากหลายรูปแบบ ได้รับผลกระทบ จากเหตุการณ์นี้ สูญเสียมูลค่าสื่อในราคาที่สูง

 

ธุรกิจขนส่งสาธารณะ ระบบรถไฟฟ้าใต้ดินในนิวยอร์ก ไม่สามารถแสดงข้อมูลการมาถึงของขบวนรถได้ และในวอชิงตัน ดี.ซี. มีการออกประกาศแจ้งเตือนให้ผู้โดยสารเตรียมพร้อมรับมือกับความล่าช้า

 

นอกจากที่กล่าวมาทั้งหมด ยังมีอีกหลายธุรกิจที่ได้รับผลกระทบในมูลค่าและความเสียหายที่แตกต่างกันออกไป เช่น ธุรกิจค่าปลีก ธุรกิจท่าเรือ ธุรกิจตลาดหลักทรัพย์ ซึ่งรวมเป็นมูลค่าที่สูงหลายล้านดอลลาร์สหรัฐ (อ้างอิง 3)

อ้างอิงจากการสำรวจของ Gartner บริษัทวิจัยชั้นนำด้านเทคโนโลยี ที่เป็นที่ปรึกษาด้านข้อมูลเกี่ยวการเปลี่ยนแปลงของอุตสาหกรรม ที่เป็นที่ไว้วางใจของผู้นำด้านเทคโนโลยีทั่วโลกได้ทำการสำรวจกับ Gartner Peer Community หรือกลุ่มผู้นำองค์กรที่ใช้บริการของ Gartner ถึงผลกระทบที่เกิดขึ้นกับแต่ละองค์กร พบว่า 47% ของผู้ตอบแบบสอบถามระบุว่า การหยุดทำงานของ CrowdStrike ส่งผลกระทบรุนแรง 14% หรือค่อนข้างรุนแรง 33% มีผลต่อการดำเนินงานขององค์กร อย่างไรก็ตาม มีผู้ตอบแบบสอบถาม 20% ระบุว่า ไม่มีผลกระทบใดๆ (อ้างอิง 4)

ไซเบอร์ อีลีท ตอบสนองต่อเหตุการณ์นี้อย่างไร ?

ไซเบอร์ อีลีท ได้รับรู้ถึงเหตุการณ์ BSOD ในวันเกิดเหตุเวลาไม่เกิน 11:30 เวลาประเทศไทย และได้จัดตั้ง War Room ไม่นานในเวลาถัดมาเพื่อรวบรวมข้อมูลเกี่ยวกับผลกระทบที่เกิดขึ้นกับผู้ใช้บริการ Managed Endpoint Detection & Response หลายสิบรายของเราและได้ทำการเข้าช่วยเหลือในทันทีที่เกิดเหตุ ทีมงานของเราสื่อสารกับผู้ใช้บริการ ทั้งที่แจ้งเหตุเข้ามา และแจ้งเตือนไปยังผู้ใช้บริการกลุ่มที่ยังไม่ได้รับผลกระทบเพื่อส่งมอบ Remediation Guideline ให้กับผู้ใช้บริการแต่ละรายใช้ เพื่อบรรเทาผลกระทบของเหตุการณ์ในครั้งนี้

 

หลังจากที่เหตุการณ์สงบลง ทีมงานของ ไซเบอร์ อีลีทยังคง เฝ้าระวัง ติดตามผล และทำการสรุปถึงสาเหตุเพื่อชี้แจงไปยังผู้ใช้บริการโดยทำงานใกล้ชิดกับผู้เชี่ยวชาญจาก CrowdStrike และเฝ้าระวังอย่างต่อเนื่อง

สิ่งที่ต้องระวังต่อจากนี้

ไซเบอร์ อีลีท เข้าใจดีว่าหลังจากเหตุการณ์นี้ จะมีผู้ไม่หวังดีมากมายใช้โอกาสนี้ในการพลิกวิกฤตให้เป็นโอกาส ในการหาประโยชน์ หลอกล่อ เพื่อขโมยข้อมูล และสิทธิ์การเข้าถึงของผู้ใช้งาน จากข้อมูลล่าสุด ได้พบว่ามีการจัดตั้ง Domain ขึ้นมามากมายเพื่อใช้หลอกล่อให้ผู้ใช้งานตกหลุมพรางทางไซเบอร์ ด้วยวิธีการ Phishing ยกตัวอย่างเช่น crashstrike[.]com, crowdstrikefix[.]com, crowdstrikebluescreen[.]com, crowdstrike-helpdesk[.]com, crowdfalcon-immed-update[.]com, crowdstrike-bsod[.]com, crowdstrikebsod[.]com ที่ล้วนมีความเกี่ยวข้องกับเหตุการณ์เหล่านี้ ทั้งองค์กรและบุคลากรต้องมีแผนการตั้งรับ และต้องเฝ้าระวังไม่ให้ตกหลุมพรางนี้ โดยองค์กรควรเน้นย้ำกับพนักงานว่าต้องตรวจสอบแหล่งที่มา ของข้อมูล ไม่คลิ๊กลิงค์ที่ไม่เหมาะสม หรืออาจเสริมการป้องการเพิ่มด้วยเทคโนโลยีเกี่ยวกับ E-mail Security หรือ Phishing Protection 

คำแนะนำของ ไซเบอร์ อีลีท หากเกิดเหตุการณ์แบบนี้ขึ้นอีก

สิ่งที่เป็น Key Take Away ที่สำคัญที่สุดจากเหตุการณ์ไม่คาดฝันในครั้งนี้คงหนีไม่พ้นการมีความพร้อมในการรับมือกับเหตุการณ์ มีความยืดหยุ่นในการรับมือกับภาวะฉุกเฉิน ซึ่งเป็นคำที่เราคุ้นเคยกันดีนั้นก็คือ Digital Resilience ฟังดูเป็นคำที่เชื่อว่าผู้นำองค์กรทราบกันเป็นอย่างดีว่างเป็นหนึ่งในปัจจัยในการวางรากฐานองค์กรให้แข็งแกร่ง พร้อมรับมือกับภัยพิบัติทุกรูปแบบ ไม่ว่าจะเกิดจากสาเหตุอะไร ซึ่งไม่จำเป็นต้องเป็นภัยคุกคามทางไซเบอร์เสมอไป ทุกองค์กรต้องมีความพร้อมวางแผนตั้งรับเพื่อให้การล้มแต่ละครั้ง ไม่กินเวลานานจนเกินไป องค์กรจะต้องเตรียมแผนการรับมือทั้งระยะสั้น หากเกิดเหตุจะต้องจัดการอย่างไร และระยะยาวที่จะช่วยในการเตรียมตัวบุคลากร และออกแบบระบบให้มีความพร้อม โดยเราได้สรุปออกมาดังต่อไปนี้ (อ้างอิง 5)

ระยะสั้น (Short Term)

  • ระดมทีมรับมือ: ตั้งทีมรับมือเหตุการณ์ฉุกเฉินและทีมบริหารวิกฤต เพื่อแจ้งเตือนพนักงาน ลูกค้า และคู่ค้าสำคัญเกี่ยวกับปัญหาที่อาจเกิดขึ้น ตรวจสอบแหล่งข้อมูลข่าวสารเพื่อป้องกันความผิดพลาดและควบคุมสถานการณ์กำหนดช่องทางการสื่อสารหลัก ตั้งทีมเพื่อสื่อสารภายในองค์กร
  • ตรวจสอบเหตุการณ์: ติดตามความผิดปกติอย่างใกล้ชิด ควบคุมไม่ให้มีการขยายวงกว้าง
  • ช่วยเหลือผู้ใช้งาน: ให้การสนับสนุนผู้ใช้งานตามแนวทางแก้ไขปัญหา
  • จัดลำดับความสำคัญ: ประเมินผลกระทบและความซับซ้อนของปัญหา จัดทำแผนแก้ไขปัญหาตามลำดับความสำคัญรวมถึงคาดการณ์ผลกระทบข้างเคียง

ระยะยาว (Long Term)

  • ปรับปรุงแผนรับมือ: ทบทวนแผนรับมือเหตุการณ์ฉุกเฉิน ขององค์กร กำหนดเหตุการณ์สมมติที่อาจเกิดขึ้น ทั้ง Best Case และ Worst Case และปรับปรุงแผนในการรับมือภัยพิบัติให้มีประสิทธิภาพมากขึ้น
  • พัฒนาทักษะพนักงาน: พัฒนาทักษะของทีม และเตรียมความพร้อมในการรับมือเหตุการณ์ เช่นการทำ Cyber Drill ให้กับบุคคลากรในองค์กรได้ซ้อมรับมือ
  • สร้างความยืดหยุ่น: ปรับปรุงและออกแบบระบบให้มีความสามารถในการรับมือสถานการณ์ ต่างๆ ได้ไวขึ้น

 

สามารถอ่านคำแนะนำเพิ่มเติมได้ที่บนความ < CYBER ELITE: Cyber Resilience Guidance BSOD เป็นเหตุ ต้องกลับมาสังเกตความพร้อมขององค์กร>

สิ่งที่องค์กรควรเริ่มลงมือทันที

จากนี้เราคงปฏิเสธไม่ได้ว่า Digital Resilience จะเป็นคำที่ถูกกลับมาพูดถึงอย่างมากในอุตสาหกรรมเทคโนโลยีสารสนเทศ เพราะเป็นหนทางที่จะทำให้องค์กรสามารถบริหารจัดการระบบสารสนเทศของตนเองได้อย่างยั่งยืน โดยเราได้สรุปขั้นตอนและวิธีการออกมาเพื่อเป็นประโยชน์กับผู้อ่านทุกท่าน ดังต่อไปนี้

วางแผนรับมือเหตุฉุกเฉิน  (Incident Response Plan)

  • สมมติเหตุการณ์ที่อาจเกิดขึ้น ประเมินความเสี่ยงที่อาจเกิดขึ้นกับองค์กร เช่น การโจมตีด้วย ransomware การขัดข้องของฮาร์ดแวร์ ภัยธรรมชาติ
  • สร้างแผนฉุกเฉิน เพื่อกำหนดขั้นตอนการดำเนินการในแต่ละสถานการณ์ เช่น การแจ้งเตือนทีมงาน การกู้คืนข้อมูล การสื่อสารกับผู้มีส่วนได้ส่วนเสีย
  • ทดสอบแผนเป็นประจำ โดยการจัดฝึกซ้อมแผนฉุกเฉิน (Cyber Drill) อย่างน้อยปีละครั้ง เพื่อให้มั่นใจว่าทุกคนในองค์กรเข้าใจบทบาทหน้าที่ของตนและสามารถปฏิบัติตามแผนได้อย่างถูกต้อง

 

สำรองข้อมูลอย่างสม่ำเสมอ (Back up & Recovery)

  • สำรองข้อมูลในหลายที่ เช่น ฮาร์ดดิสก์ภายนอก คลาวด์ และเก็บสำเนาหนึ่งส่วนไว้ในสถานที่ที่ปลอดภัย
  • ทดลองกู้คืนข้อมูลเป็นระยะ เพื่อตรวจสอบว่าระบบสำรองข้อมูลทำงานได้อย่างถูกต้อง

 

ใช้เทคโนโลยีรักษาความปลอดภัย (Cybersecurity Solution)

  • อัปเดตซอฟต์แวร์และระบบปฏิบัติการอยู่เสมอ เพื่อปิดช่องโหว่ที่อาจถูกโจมตี
  • ใช้ระบบป้องกันภัยคุกคาม สร้างกำแพงป้องกันการโจมตีจากภายนอก
  • ให้ความรู้แก่พนักงาน สอนให้พนักงานรู้จักกับภัยคุกคามทางไซเบอร์ รวมถึงวิธีการปกป้องตัวเองจากผู้ไม่หวังดี เช่น การไม่คลิกลิงก์ที่ไม่น่าเชื่อถือ การไม่เปิดไฟล์ที่ไม่รู้จัก

 

กระจายระบบ (Distributed System)

  • หลีกเลี่ยงการพึ่งพาระบบเดียว โดยกระจายระบบไปยังหลายเซิร์ฟเวอร์ หรือหลายศูนย์ข้อมูล เพื่อลดความเสี่ยงหากระบบใดระบบหนึ่งเกิดปัญหา
  • ใช้คลาวด์คอมพิวติ้งเพื่อเพิ่มความยืดหยุ่นในการเข้าถึงข้อมูลและแอปพลิเคชัน

 

สร้างความตระหนักรู้ให้กับพนักงาน (User Awareness)

  • สื่อสารความสำคัญของความปลอดภัย ทำให้พนักงานทุกคนตระหนักถึงความสำคัญของการรักษาความปลอดภัยข้อมูล
  • จัดอบรมให้พนักงานมีความรู้เกี่ยวกับภัยคุกคามทางไซเบอร์ และวิธีการป้องกัน

ไซเบอร์ อีลีท มีทีมงานที่มากด้วยประสบการณ์ พร้อมให้คำปรึกษาตั้งแต่การวางรากฐานระบบ ไปจนถึงการทำแผนการรับมือ (Incident Response Plan) การฝึกซ้อมในสถานการณ์จำลอง (Cyber Drill) รวมถึงบริการ Managed Security Service ที่จะคอยอยู่เคียงข้างท่านในยามวิกฤต เรายินดีในการเป็นส่วนหนึ่งในการสร้าง Digital Resilience ร่วมไปกับองค์กรของท่าน

 

อ้างอิง

อ้างอิง 1 https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
อ้างอิง 2 https://www.linkedin.com/pulse/crowdstrike-disruption-some-lessons-learned-techtalk-with-ragu-nava-4udbc/?trackingId=ke%2FNd8dXRaOjkmJEUFS%2FlQ%3D%3D

อ้างอิง 3 https://www.techtarget.com/whatis/feature/Explaining-the-largest-IT-outage-in-history-and-whats-next

อ้างอิง 4 https://www.gartner.com/peer-community/oneminuteinsights/crowdstrike-outage-impact-recovery-2yd

อ้างอิง 5 https://www.gartner.com/document/5602759?ref=solrAll&refval=422814857&