เมื่อวันศุกร์ที่ 19 กรกฎาคม 2024 ได้มีปรากฏการณ์การล่มของระบบปฏิบัติการ Windows ครั้งที่ใหญ่ที่สุด สร้างผลกระทบให้อุปกรณ์กว่า 8.5 ล้านเครื่องทั่วโลก หยุดชะงัก ใช้การไม่ได้ ธุรกิจในหลายอุตสาหกรรมได้รับผลกระทบอย่างหนัก ไม่ว่าจะเป็นธนาคาร โรงงานอุตสาหกรรม ธุรกิจสุขภาพและโรงพยาบาล แม้แต่ธุรกิจสายการบินเองก็ได้รับผลอย่างหนัก ก่อให้เกิดการดีเลย์ของเที่ยวบินขึ้นหลายเที่ยวบิน สนามบินบางสนามบินต้องหยุดทำการ ซึ่งเหตุการณ์นี้เป็นเหตุการณ์ที่ไม่มีใครคาดคิด และไม่สามารถรู้ตัวก่อน และหลีกเลี่ยงได้ทัน แน่นอนว่าผู้ใช้บริการของบริษัท ไซเบอร์ อีลีท เองก็ได้รับผลกระทบจากเหตุการณ์ในครั้งนี้ไม่น้อยเช่นกัน ซึ่งเรา ในฐานะผู้เชี่ยวชาญด้านความมั่นคงปลอดภัยไซเบอร์ ที่ให้บริการตลอด 24 ชั่วโมง ได้เข้าไปช่วยเหลือผู้ใช้บริการในการแก้ปัญหาตั้งแต่เกิดเหตุ จนกระทั่งเหตุการณ์สงบลง
เกิดอะไรขึ้น ?
ในวันดังกล่าว เวลา 04:09 UTC หรือประมาณ 11 โมงประเทศไทย CrowdStrike ได้ดำเนินการปล่อย Configuration Update ที่ในบทความนี้เราจะเรียกว่า การกำหนดค่าการใช้งาน ซึ่งเป้าประสงค์ของการกำหนดค่าการใช้งานใหม่นี้ ก็เพื่อส่งข้อมูลให้ Sensor บนอุปกรณ์ของผู้ใช้งาน ให้มีข้อมูลล่าสุดเกี่ยวกับภัยคุกคามใหม่ๆ ที่ถูกค้นพบ ซึ่งกระบวนการอัปเดตนี้เป็นกระบวนการที่ผู้ให้บริการอย่าง CrowdStrike ทำอย่างต่อเนื่อง เป็นประจำ เพื่อให้มั่นใจในประสิทธิภาพของการปกป้องอุปกรณ์ อยู่ในระดับที่สูงตลอดเวลา
แต่การอัปเดตในครั้งนี้ไม่เหมือนในทุกครั้งที่ผ่านมา เพราะการอัปเดตครั้งนี้เป็นการส่งการกำหนดค่าที่มีตรรกะที่ผิดพลาด และรบกวนการทำงานของระบบปฏิบัติการ Windows จนสร้างผลกระทบในเชิงลบให้เกิดขึ้น ทำให้อุปกรณ์กว่า 8.5 ล้านเครื่องหยุดทำงานลงกะทันหัน เกิดปรากฎการณ์จอฟ้า ดังที่เห็นเป็นข่าวในช่วงเวลาที่ผ่านมา ส่งผลกระทบทางลบให้กับเครื่องที่ใช้ระบบปฏิบัติการ Windows ที่ออนไลน์ตั้งแต่ 04:09 ไปจนถึง 05:27 UTC โดยอุปกรณ์ที่ไม่ได้ออนไลน์ในช่วงเวลาดังกล่าวไม่ได้รับผลกระทบ รวมถึงระบบปฏิบัติการ IOS และ Linux เองก็เช่นกัน (อ้างอิง 1)
ผลกระทบที่เกิดขึ้น
อุปกรณ์ประมาณ 8.5 ล้านอุปกรณ์ได้รับผลกระทบและหยุดชะงักลง ซึ่งนับเป็น 1% จากจำนวนผู้ใช้งานระบบปฏิบัติการ Windows ทั้งหมดทั่วโลก ซึ่งเป็นตัวเลขจำนวนอุปกรณ์ที่สำรวจมาแล้วจากทุกอุตสาหกรรม ทุกธุรกิจ และมีการสำรวจมูลค่าความเสียหายจากบริษัทที่อยู่ในกลุ่ม Fortune 500 ว่ามีมูลค่าความเสียหายตีเป็นเงินสูงถึง 5.4 พันล้านดอลลาร์สหรัฐ (อ้างอิง 2) ซึ่งผลกระทบที่เกิดขึ้นกับธุรกิจก็มีรูปแบบที่แตกต่างกันออกไป เช่น
ธุรกิจการบิน เหตุการณ์นี้ส่งผลกระทบให้เที่ยวบินกว่า 1000 เที่ยวบินทั่วโลกต้องหยุดชะงักลงหรือถูกดีเลย์ กว่า 10,000 เที่ยวบินถูกยกเลิก ซึ่งตัวเลขนี้รวมสายการบินใหญ่ๆ มีชื่อเสียงระดับโลกอย่าง Delta, United and American Airlines นอกจากสายการบิน สนามบินเองก็ถูกสถานการณ์บังคับให้หยุดการทำงานลงจนกว่าระบบจะกลับมาใช้งานได้ตามปกติ สำหรับประเทศไทยเองก็มีสายการบินและสนามบินที่ได้รับผลกระทบเช่นกัน ไม่ว่าจะเป็น Thai Air Asia, Jetstar Asia, Firefly Airlines, Scoot และอื่นๆ
ธุรกิจสุขภาพ โรงพยาบาลและคลินิกทั่วโลกได้รับผลกระทบเช่นกัน โดยเฉพาะกับระบบนัดหมายทำให้เกิดความล่าช้าและต้องยกเลิกนัดหมาย ในบางพื้นที่ก็มีผลกระทบกับระบบแจ้งเหตุด่วน เหตุฉุกเฉินอย่าง 911 อีกด้วย ซึ่งเหตุการณ์นี้เกิดขึ้นในรัฐอลาสก้า อินเดียนาของสหรัฐอเมริกา
ธุรกิจการเงิน บริการ Online Banking ของหลายธนาคารและหน่วยงานทางการเงินได้รับผลกระทบ รวมถึงบริการทำธุรกรรมทางการเงินอื่นๆ ด้วยเช่นกัน มีรายงานจากผู้ใช้งานหลายรายแจ้งว่าไม่ได้รับเงินในเวลาที่ควรจะได้รับ
ธุรกิจบันเทิง สื่อจากสถานีโทรทัศน์วิทยุหลายแห่งทั่วโลก รวมถึงผู้ให้บริการโฆษณาดิจิทัล บิลบอร์ด สื่อหลากหลายรูปแบบ ได้รับผลกระทบ จากเหตุการณ์นี้ สูญเสียมูลค่าสื่อในราคาที่สูง
ธุรกิจขนส่งสาธารณะ ระบบรถไฟฟ้าใต้ดินในนิวยอร์ก ไม่สามารถแสดงข้อมูลการมาถึงของขบวนรถได้ และในวอชิงตัน ดี.ซี. มีการออกประกาศแจ้งเตือนให้ผู้โดยสารเตรียมพร้อมรับมือกับความล่าช้า
นอกจากที่กล่าวมาทั้งหมด ยังมีอีกหลายธุรกิจที่ได้รับผลกระทบในมูลค่าและความเสียหายที่แตกต่างกันออกไป เช่น ธุรกิจค่าปลีก ธุรกิจท่าเรือ ธุรกิจตลาดหลักทรัพย์ ซึ่งรวมเป็นมูลค่าที่สูงหลายล้านดอลลาร์สหรัฐ (อ้างอิง 3)
อ้างอิงจากการสำรวจของ Gartner บริษัทวิจัยชั้นนำด้านเทคโนโลยี ที่เป็นที่ปรึกษาด้านข้อมูลเกี่ยวการเปลี่ยนแปลงของอุตสาหกรรม ที่เป็นที่ไว้วางใจของผู้นำด้านเทคโนโลยีทั่วโลกได้ทำการสำรวจกับ Gartner Peer Community หรือกลุ่มผู้นำองค์กรที่ใช้บริการของ Gartner ถึงผลกระทบที่เกิดขึ้นกับแต่ละองค์กร พบว่า 47% ของผู้ตอบแบบสอบถามระบุว่า การหยุดทำงานของ CrowdStrike ส่งผลกระทบรุนแรง 14% หรือค่อนข้างรุนแรง 33% มีผลต่อการดำเนินงานขององค์กร อย่างไรก็ตาม มีผู้ตอบแบบสอบถาม 20% ระบุว่า ไม่มีผลกระทบใดๆ (อ้างอิง 4)
ไซเบอร์ อีลีท ตอบสนองต่อเหตุการณ์นี้อย่างไร ?
ไซเบอร์ อีลีท ได้รับรู้ถึงเหตุการณ์ BSOD ในวันเกิดเหตุเวลาไม่เกิน 11:30 เวลาประเทศไทย และได้จัดตั้ง War Room ไม่นานในเวลาถัดมาเพื่อรวบรวมข้อมูลเกี่ยวกับผลกระทบที่เกิดขึ้นกับผู้ใช้บริการ Managed Endpoint Detection & Response หลายสิบรายของเราและได้ทำการเข้าช่วยเหลือในทันทีที่เกิดเหตุ ทีมงานของเราสื่อสารกับผู้ใช้บริการ ทั้งที่แจ้งเหตุเข้ามา และแจ้งเตือนไปยังผู้ใช้บริการกลุ่มที่ยังไม่ได้รับผลกระทบเพื่อส่งมอบ Remediation Guideline ให้กับผู้ใช้บริการแต่ละรายใช้ เพื่อบรรเทาผลกระทบของเหตุการณ์ในครั้งนี้
หลังจากที่เหตุการณ์สงบลง ทีมงานของ ไซเบอร์ อีลีทยังคง เฝ้าระวัง ติดตามผล และทำการสรุปถึงสาเหตุเพื่อชี้แจงไปยังผู้ใช้บริการโดยทำงานใกล้ชิดกับผู้เชี่ยวชาญจาก CrowdStrike และเฝ้าระวังอย่างต่อเนื่อง
สิ่งที่ต้องระวังต่อจากนี้
ไซเบอร์ อีลีท เข้าใจดีว่าหลังจากเหตุการณ์นี้ จะมีผู้ไม่หวังดีมากมายใช้โอกาสนี้ในการพลิกวิกฤตให้เป็นโอกาส ในการหาประโยชน์ หลอกล่อ เพื่อขโมยข้อมูล และสิทธิ์การเข้าถึงของผู้ใช้งาน จากข้อมูลล่าสุด ได้พบว่ามีการจัดตั้ง Domain ขึ้นมามากมายเพื่อใช้หลอกล่อให้ผู้ใช้งานตกหลุมพรางทางไซเบอร์ ด้วยวิธีการ Phishing ยกตัวอย่างเช่น crashstrike[.]com, crowdstrikefix[.]com, crowdstrikebluescreen[.]com, crowdstrike-helpdesk[.]com, crowdfalcon-immed-update[.]com, crowdstrike-bsod[.]com, crowdstrikebsod[.]com ที่ล้วนมีความเกี่ยวข้องกับเหตุการณ์เหล่านี้ ทั้งองค์กรและบุคลากรต้องมีแผนการตั้งรับ และต้องเฝ้าระวังไม่ให้ตกหลุมพรางนี้ โดยองค์กรควรเน้นย้ำกับพนักงานว่าต้องตรวจสอบแหล่งที่มา ของข้อมูล ไม่คลิ๊กลิงค์ที่ไม่เหมาะสม หรืออาจเสริมการป้องการเพิ่มด้วยเทคโนโลยีเกี่ยวกับ E-mail Security หรือ Phishing Protection
คำแนะนำของ ไซเบอร์ อีลีท หากเกิดเหตุการณ์แบบนี้ขึ้นอีก
สิ่งที่เป็น Key Take Away ที่สำคัญที่สุดจากเหตุการณ์ไม่คาดฝันในครั้งนี้คงหนีไม่พ้นการมีความพร้อมในการรับมือกับเหตุการณ์ มีความยืดหยุ่นในการรับมือกับภาวะฉุกเฉิน ซึ่งเป็นคำที่เราคุ้นเคยกันดีนั้นก็คือ Digital Resilience ฟังดูเป็นคำที่เชื่อว่าผู้นำองค์กรทราบกันเป็นอย่างดีว่างเป็นหนึ่งในปัจจัยในการวางรากฐานองค์กรให้แข็งแกร่ง พร้อมรับมือกับภัยพิบัติทุกรูปแบบ ไม่ว่าจะเกิดจากสาเหตุอะไร ซึ่งไม่จำเป็นต้องเป็นภัยคุกคามทางไซเบอร์เสมอไป ทุกองค์กรต้องมีความพร้อมวางแผนตั้งรับเพื่อให้การล้มแต่ละครั้ง ไม่กินเวลานานจนเกินไป องค์กรจะต้องเตรียมแผนการรับมือทั้งระยะสั้น หากเกิดเหตุจะต้องจัดการอย่างไร และระยะยาวที่จะช่วยในการเตรียมตัวบุคลากร และออกแบบระบบให้มีความพร้อม โดยเราได้สรุปออกมาดังต่อไปนี้ (อ้างอิง 5)
ระยะสั้น (Short Term)
- ระดมทีมรับมือ: ตั้งทีมรับมือเหตุการณ์ฉุกเฉินและทีมบริหารวิกฤต เพื่อแจ้งเตือนพนักงาน ลูกค้า และคู่ค้าสำคัญเกี่ยวกับปัญหาที่อาจเกิดขึ้น ตรวจสอบแหล่งข้อมูลข่าวสารเพื่อป้องกันความผิดพลาดและควบคุมสถานการณ์กำหนดช่องทางการสื่อสารหลัก ตั้งทีมเพื่อสื่อสารภายในองค์กร
- ตรวจสอบเหตุการณ์: ติดตามความผิดปกติอย่างใกล้ชิด ควบคุมไม่ให้มีการขยายวงกว้าง
- ช่วยเหลือผู้ใช้งาน: ให้การสนับสนุนผู้ใช้งานตามแนวทางแก้ไขปัญหา
- จัดลำดับความสำคัญ: ประเมินผลกระทบและความซับซ้อนของปัญหา จัดทำแผนแก้ไขปัญหาตามลำดับความสำคัญรวมถึงคาดการณ์ผลกระทบข้างเคียง
ระยะยาว (Long Term)
- ปรับปรุงแผนรับมือ: ทบทวนแผนรับมือเหตุการณ์ฉุกเฉิน ขององค์กร กำหนดเหตุการณ์สมมติที่อาจเกิดขึ้น ทั้ง Best Case และ Worst Case และปรับปรุงแผนในการรับมือภัยพิบัติให้มีประสิทธิภาพมากขึ้น
- พัฒนาทักษะพนักงาน: พัฒนาทักษะของทีม และเตรียมความพร้อมในการรับมือเหตุการณ์ เช่นการทำ Cyber Drill ให้กับบุคคลากรในองค์กรได้ซ้อมรับมือ
- สร้างความยืดหยุ่น: ปรับปรุงและออกแบบระบบให้มีความสามารถในการรับมือสถานการณ์ ต่างๆ ได้ไวขึ้น
สามารถอ่านคำแนะนำเพิ่มเติมได้ที่บนความ < CYBER ELITE: Cyber Resilience Guidance BSOD เป็นเหตุ ต้องกลับมาสังเกตความพร้อมขององค์กร>
สิ่งที่องค์กรควรเริ่มลงมือทันที
จากนี้เราคงปฏิเสธไม่ได้ว่า Digital Resilience จะเป็นคำที่ถูกกลับมาพูดถึงอย่างมากในอุตสาหกรรมเทคโนโลยีสารสนเทศ เพราะเป็นหนทางที่จะทำให้องค์กรสามารถบริหารจัดการระบบสารสนเทศของตนเองได้อย่างยั่งยืน โดยเราได้สรุปขั้นตอนและวิธีการออกมาเพื่อเป็นประโยชน์กับผู้อ่านทุกท่าน ดังต่อไปนี้
วางแผนรับมือเหตุฉุกเฉิน (Incident Response Plan)
- สมมติเหตุการณ์ที่อาจเกิดขึ้น ประเมินความเสี่ยงที่อาจเกิดขึ้นกับองค์กร เช่น การโจมตีด้วย ransomware การขัดข้องของฮาร์ดแวร์ ภัยธรรมชาติ
- สร้างแผนฉุกเฉิน เพื่อกำหนดขั้นตอนการดำเนินการในแต่ละสถานการณ์ เช่น การแจ้งเตือนทีมงาน การกู้คืนข้อมูล การสื่อสารกับผู้มีส่วนได้ส่วนเสีย
- ทดสอบแผนเป็นประจำ โดยการจัดฝึกซ้อมแผนฉุกเฉิน (Cyber Drill) อย่างน้อยปีละครั้ง เพื่อให้มั่นใจว่าทุกคนในองค์กรเข้าใจบทบาทหน้าที่ของตนและสามารถปฏิบัติตามแผนได้อย่างถูกต้อง
สำรองข้อมูลอย่างสม่ำเสมอ (Back up & Recovery)
- สำรองข้อมูลในหลายที่ เช่น ฮาร์ดดิสก์ภายนอก คลาวด์ และเก็บสำเนาหนึ่งส่วนไว้ในสถานที่ที่ปลอดภัย
- ทดลองกู้คืนข้อมูลเป็นระยะ เพื่อตรวจสอบว่าระบบสำรองข้อมูลทำงานได้อย่างถูกต้อง
ใช้เทคโนโลยีรักษาความปลอดภัย (Cybersecurity Solution)
- อัปเดตซอฟต์แวร์และระบบปฏิบัติการอยู่เสมอ เพื่อปิดช่องโหว่ที่อาจถูกโจมตี
- ใช้ระบบป้องกันภัยคุกคาม สร้างกำแพงป้องกันการโจมตีจากภายนอก
- ให้ความรู้แก่พนักงาน สอนให้พนักงานรู้จักกับภัยคุกคามทางไซเบอร์ รวมถึงวิธีการปกป้องตัวเองจากผู้ไม่หวังดี เช่น การไม่คลิกลิงก์ที่ไม่น่าเชื่อถือ การไม่เปิดไฟล์ที่ไม่รู้จัก
กระจายระบบ (Distributed System)
- หลีกเลี่ยงการพึ่งพาระบบเดียว โดยกระจายระบบไปยังหลายเซิร์ฟเวอร์ หรือหลายศูนย์ข้อมูล เพื่อลดความเสี่ยงหากระบบใดระบบหนึ่งเกิดปัญหา
- ใช้คลาวด์คอมพิวติ้งเพื่อเพิ่มความยืดหยุ่นในการเข้าถึงข้อมูลและแอปพลิเคชัน
สร้างความตระหนักรู้ให้กับพนักงาน (User Awareness)
- สื่อสารความสำคัญของความปลอดภัย ทำให้พนักงานทุกคนตระหนักถึงความสำคัญของการรักษาความปลอดภัยข้อมูล
- จัดอบรมให้พนักงานมีความรู้เกี่ยวกับภัยคุกคามทางไซเบอร์ และวิธีการป้องกัน
ไซเบอร์ อีลีท มีทีมงานที่มากด้วยประสบการณ์ พร้อมให้คำปรึกษาตั้งแต่การวางรากฐานระบบ ไปจนถึงการทำแผนการรับมือ (Incident Response Plan) การฝึกซ้อมในสถานการณ์จำลอง (Cyber Drill) รวมถึงบริการ Managed Security Service ที่จะคอยอยู่เคียงข้างท่านในยามวิกฤต เรายินดีในการเป็นส่วนหนึ่งในการสร้าง Digital Resilience ร่วมไปกับองค์กรของท่าน
อ้างอิง
อ้างอิง 1 https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/
อ้างอิง 2 https://www.linkedin.com/pulse/crowdstrike-disruption-some-lessons-learned-techtalk-with-ragu-nava-4udbc/?trackingId=ke%2FNd8dXRaOjkmJEUFS%2FlQ%3D%3D
อ้างอิง 3 https://www.techtarget.com/whatis/feature/Explaining-the-largest-IT-outage-in-history-and-whats-next
อ้างอิง 4 https://www.gartner.com/peer-community/oneminuteinsights/crowdstrike-outage-impact-recovery-2yd
อ้างอิง 5 https://www.gartner.com/document/5602759?ref=solrAll&refval=422814857&