Các Bot Thu Thập Dữ Liệu Sử Dụng Chữ Ký Trình Duyệt Cũ Buộc Chủ Website Phải Chặn Cả Người Dùng Thật

Nhóm Cộng đồng BigGo
Các Bot Thu Thập Dữ Liệu Sử Dụng Chữ Ký Trình Duyệt Cũ Buộc Chủ Website Phải Chặn Cả Người Dùng Thật

Một vấn đề ngày càng nghiêm trọng đang xuất hiện trên khắp web khi các bot thu thập dữ liệu khối lượng lớn, nhiều trong số đó được nghi ngờ thu thập dữ liệu để huấn luyện AI, đang ngụy trang bằng cách sử dụng chữ ký trình duyệt lỗi thời. Điều này đã buộc các quản trị viên website phải triển khai các biện pháp chặn đôi khi làm ảnh hưởng đến cả người dùng thật.

Vấn đề này trở nên đặc biệt nghiêm trọng vào đầu năm 2025, khi các chủ website báo cáo tình trạng tăng đáng kể tải server do các bot thu thập tự động. Những bot này thường ngụy trang thành các phiên bản cũ của các trình duyệt phổ biến như Chrome, khiến việc phân biệt giữa người dùng thật sử dụng phần mềm lỗi thời và lưu lượng tự động độc hại trở nên khó khăn.

Đặc điểm của Common Crawler:

  • Sử dụng các giá trị User-Agent Chrome cũ
  • Thu thập dữ liệu từ các khối địa chỉ IP phân tán rộng rãi
  • Một số sử dụng các mục nhập DNS ngược giả mạo tuyên bố là googlebot
  • Các yêu cầu tự động có khối lượng lớn
  • Nghi ngờ thu thập dữ liệu để huấn luyện LLM

Các Dịch Vụ Lưu Trữ Bị Ảnh Hưởng

Các dịch vụ lưu trữ phổ biến đã trở thành nạn nhân không mong muốn của những biện pháp chống bot này. Các dịch vụ như archive.today, archive.ph, và archive.is sử dụng chữ ký trình duyệt cũ khi thu thập dữ liệu trang web để bảo tồn, khiến chúng không thể phân biệt được với các bot có vấn đề mà chủ website đang cố gắng chặn.

Tình huống trở nên phức tạp khi các dịch vụ lưu trữ này hoạt động từ các khối địa chỉ IP phân tán không được xác định rõ ràng là thuộc về các dịch vụ lưu trữ. Một số thậm chí còn sử dụng các mục DNS ngược giả mạo tự xưng là các bot thu thập của công cụ tìm kiếm hợp pháp, một thực hành thường liên quan đến các tác nhân độc hại.

Các Dịch vụ Lưu trữ Bị Ảnh hưởng:

  • archive.today
  • archive.ph
  • archive.is
  • Các tên miền archive.* khác

Giải pháp Thay thế Được Khuyến nghị:

  • archive.org (trình thu thập dữ liệu lưu trữ hoạt động tốt hơn)

Giải Pháp Kỹ Thuật và Tranh Luận Cộng Đồng

Cộng đồng nhà phát triển đã tích cực thảo luận về các cách tiếp cận khác nhau để xử lý thách thức này. Trong khi một số tập trung vào các cơ chế chặn phía server, những người khác đang khám phá các phương pháp phát hiện tinh vi hơn có thể phân biệt giữa các dịch vụ lưu trữ hợp pháp và các hoạt động thu thập dữ liệu.

You can just do trap 'caller 1' ERR should do the same thing. Also you should set errtrace (-E) and possibly nounset (-u) and pipefail.

Cuộc thảo luận cũng đã khơi mào các cuộc trò chuyện rộng hơn về sự cân bằng giữa việc bảo vệ website khỏi lưu lượng tự động quá mức và duy trì khả năng tiếp cận cho các mục đích lưu trữ và nghiên cứu hợp pháp. Nhiều nhà phát triển đang ủng hộ các cách tiếp cận chuẩn hóa hơn để xác định các bot thu thập và dịch vụ lưu trữ hợp pháp.

Tác Động Đến Khả Năng Tiếp Cận Web

Cuộc chạy đua vũ trang bot này đang tạo ra những rào cản mới cho khả năng tiếp cận web và các nỗ lực lưu trữ. Người dùng với trình duyệt thực sự lỗi thời có thể thấy mình không thể truy cập nội dung, trong khi các nỗ lực bảo tồn web quan trọng đối mặt với ngày càng nhiều trở ngại.

Tình huống này làm nổi bật căng thẳng đang diễn ra giữa việc bảo vệ tài nguyên web và duy trì một internet mở, dễ tiếp cận. Khi các công ty AI tiếp tục tìm kiếm dữ liệu huấn luyện và các tác nhân độc hại trở nên tinh vi hơn trong cách tiếp cận của họ, các chủ website buộc phải đưa ra những quyết định ngày càng khó khăn về kiểm soát truy cập.

Các quản trị viên website hiện đang khuyến nghị người dùng cập nhật trình duyệt không chỉ vì lý do bảo mật, mà còn để tránh bị các hệ thống chống bot chặn nhầm. Trong khi đó, cộng đồng lưu trữ đang kêu gọi các tiêu chuẩn và hệ thống nhận dạng tốt hơn để phân biệt các nỗ lực bảo tồn hợp pháp khỏi các hoạt động thu thập dữ liệu.

Tham khảo: You're using a suspiciously old browser