Cập nhật Falcon của CrowdStrike gây ra sự cố IT toàn cầu quy mô lớn: Bài học và hệ quả

BigGo Editorial Team
Cập nhật Falcon của CrowdStrike gây ra sự cố IT toàn cầu quy mô lớn: Bài học và hệ quả

Cập nhật Falcon của CrowdStrike gây ra sự cố IT toàn cầu quy mô lớn: Bài học và hệ quả

Trong sự kiện được mô tả là sự cố IT lớn nhất trong lịch sử, gã khổng lồ an ninh mạng CrowdStrike đã vô tình gây ra một cuộc sập máy tính toàn cầu ảnh hưởng đến hàng triệu hệ thống trên toàn thế giới. Sự cố xảy ra khi CrowdStrike đẩy ra một bản cập nhật cho dịch vụ quét Falcon của họ, đã gây chấn động trong ngành công nghệ và hơn thế nữa.

Logo chim ưng của CrowdStrike, đại diện cho công ty an ninh mạng đứng ở trung tâm của sự cố gián đoạn CNTT toàn cầu chưa từng có
Logo chim ưng của CrowdStrike, đại diện cho công ty an ninh mạng đứng ở trung tâm của sự cố gián đoạn CNTT toàn cầu chưa từng có

Sự cố

Vào sáng thứ Sáu, CrowdStrike, một nhà cung cấp an ninh mạng hàng đầu với khoảng 29.000 khách hàng trên 170 quốc gia, đã phát hành một bản cập nhật nội dung cho dịch vụ phát hiện và phản ứng mối đe dọa Falcon. Gần như ngay lập tức, các khách hàng đang chạy hệ điều hành Microsoft Windows bắt đầu gặp phải màn hình xanh chết chóc (BSOD), khiến hệ thống của họ không thể hoạt động.

Tác động lan rộng, ảnh hưởng đến các lĩnh vực cơ sở hạ tầng quan trọng bao gồm:

  • Bệnh viện và tổ chức y tế
  • Ngân hàng
  • Đường sắt
  • Hãng hàng không
  • Dịch vụ khẩn cấp (911)
  • Cơ quan chính phủ

Thậm chí các công ty không trực tiếp sử dụng dịch vụ của CrowdStrike cũng cảm nhận được tác động do bản chất liên kết của hoạt động kinh doanh hiện đại.

Logo Windows 11 bị vỡ nát, tượng trưng cho sự cố hệ thống diện rộng do bản cập nhật CrowdStrike gây ra trên hệ điều hành của Microsoft
Logo Windows 11 bị vỡ nát, tượng trưng cho sự cố hệ thống diện rộng do bản cập nhật CrowdStrike gây ra trên hệ điều hành của Microsoft

Phản ứng

CrowdStrike đã hành động nhanh chóng, thu hồi bản cập nhật trong vòng 90 phút sau khi phát hành. Tuy nhiên, các tác động dây chuyền của sự cố tiếp tục diễn ra trong suốt cả ngày. Công ty đã phát hành một bản sửa lỗi, nhưng nhiều hệ thống trên toàn thế giới vẫn ngoại tuyến khi các quản trị viên IT làm việc để triển khai giải pháp.

CEO của CrowdStrike, George Kurtz, đã công khai thừa nhận trách nhiệm của công ty, tuyên bố, "Hôm nay không phải là một sự cố an ninh hay mạng". Lời thừa nhận này có thể có những hệ quả đáng kể về mặt pháp lý và tài chính.

Giải pháp tạm thời và sửa lỗi

Hai giải pháp tạm thời chính đã được đề xuất:

  1. Phương pháp của CrowdStrike:

    • Khởi động Windows vào Chế độ an toàn
    • Điều hướng đến C:\Windows\System32\drivers\CrowdStrike
    • Xóa tệp C-00000291*sys
    • Bật nguồn máy chủ
  2. Đề xuất của Microsoft:

    • Khởi động lại PC khoảng 15 lần

Hệ quả và bài học

Sự cố này là một lời nhắc nhở rõ ràng về những lỗ hổng vốn có trong cơ sở hạ tầng kỹ thuật số ngày càng kết nối của chúng ta. Một số bài học chính đã nổi lên:

  1. Giám sát quy định: Kỳ vọng sẽ có nhiều yêu cầu hơn về quy định, bao gồm các yêu cầu tiềm năng về thông báo cập nhật tự động và tiêu chuẩn đảm bảo chất lượng nghiêm ngặt hơn.

  2. Quản trị an ninh mạng: Hội đồng quản trị và các giám đốc điều hành có thể cần đóng vai trò tích cực hơn trong quản lý rủi ro mạng và lập kế hoạch ứng phó sự cố.

  3. Bảo hiểm và trách nhiệm pháp lý: Sự cố có thể dẫn đến thay đổi trong các chính sách bảo hiểm mạng và hành động pháp lý tiềm năng chống lại CrowdStrike.

  4. Quy trình kiểm tra: Câu hỏi đã được đặt ra về tính đầy đủ của quy trình kiểm tra cho các bản cập nhật nội dung, có thể dẫn đến thay đổi trong các thực hành tốt nhất toàn ngành.

  5. Lỗ hổng chuỗi cung ứng: Sự cố đã làm nổi bật các rủi ro liên quan đến sự phụ thuộc của bên thứ tư và thứ năm trong hệ sinh thái kỹ thuật số.

Nhìn về phía trước

Khi tình hình đã lắng xuống, điều quan trọng là các tổ chức phải tiến hành phân tích hậu sự cố kỹ lưỡng và học hỏi từ sự kiện chưa từng có này. Sự cố nhấn mạnh nhu cầu:

  • Cải thiện hợp tác giữa các lĩnh vực công nghiệp
  • Tăng cường hợp tác công-tư
  • Phối hợp toàn cầu về các sự cố mạng, bất kể nguồn gốc của chúng

Mặc dù tác động đầy đủ của sự cố này vẫn đang diễn ra, rõ ràng nó sẽ là một thời điểm quan trọng trong thế giới an ninh mạng và hoạt động IT. Khi chúng ta tiến về phía trước, những bài học rút ra từ sự cố này có thể sẽ định hình tương lai của các chiến lược khả năng phục hồi kỹ thuật số và quản lý rủi ro trên toàn cầu.