Trong một diễn biến đáng ngạc nhiên, ByteDance, công ty mẹ của TikTok, đã tung ra một bot thu thập dữ liệu web đang nhanh chóng vượt qua các đối thủ cạnh tranh trong cuộc đua thu thập dữ liệu. Con bot có tên Bytespider được báo cáo đang thu thập dữ liệu internet với tốc độ nhanh gấp 25 lần so với GPTbot của OpenAI và đáng kinh ngạc là nhanh gấp 3.000 lần so với ClaudeBot của Anthropic.
Sự trỗi dậy của Bytespider
Ra mắt vào tháng 4 năm 2024, Bytespider đã nhanh chóng trở thành một trong những công cụ thu thập dữ liệu mạnh mẽ nhất trên internet. Theo nghiên cứu từ công ty quản lý bot Kasada và dịch vụ giám sát Dark Visitors, công cụ thu thập dữ liệu của ByteDance đang hoạt động với tốc độ chưa từng có so với các công cụ tương tự được sử dụng bởi các gã khổng lồ công nghệ như Google, Meta, Amazon, OpenAI và Anthropic.
Ý nghĩa đối với sự phát triển AI
Chiến lược thu thập dữ liệu mạnh mẽ này cho thấy ByteDance đang nỗ lực để bắt kịp trong cuộc đua AI. Công ty, được báo cáo là đã sử dụng công nghệ của OpenAI để xây dựng các mô hình ngôn ngữ lớn (LLM) của riêng mình vào năm ngoái, dường như quyết tâm thu thập một lượng lớn dữ liệu huấn luyện cho các sáng kiến AI của mình.
Các phương pháp gây tranh cãi
Cách tiếp cận của Bytespider đã gây ra một số lo ngại trong cộng đồng công nghệ. Giống như một số đối thủ cạnh tranh, bot này được báo cáo là bỏ qua các tệp robots.txt, vốn được chủ sở hữu trang web sử dụng để chỉ ra những phần nào của trang web không nên được thu thập. Thực hành này, mặc dù không bất hợp pháp, được coi là gây tranh cãi trong cuộc tranh luận đang diễn ra về quyền dữ liệu và đào tạo AI.
Các ứng dụng tiềm năng
Các nguồn tin thân cận với tham vọng của ByteDance cho rằng công ty có thể đang phát triển một LLM mới, có khả năng nhằm nâng cao chức năng tìm kiếm của TikTok. Một môi trường tìm kiếm được hỗ trợ bởi AI cải tiến có thể làm cho TikTok trở nên hấp dẫn hơn đối với các nhà quảng cáo hiện đang chi tiêu mạnh tay trên các nền tảng như Google.
Ý nghĩa trong tương lai
Khi ByteDance tiếp tục đẩy mạnh nỗ lực thu thập dữ liệu, nhiều câu hỏi nảy sinh về tương lai của sự phát triển AI và việc sử dụng dữ liệu. Cách tiếp cận mạnh mẽ của công ty có thể châm ngòi cho các cuộc thảo luận sâu hơn về quyền dữ liệu, đạo đức AI và nhu cầu về các khuôn khổ pháp lý trong lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng.
Trong khi Bytespider của ByteDance thể hiện cam kết của công ty trong việc nâng cao khả năng AI, nó cũng làm nổi bật sự cạnh tranh ngày càng gay gắt trong ngành công nghệ và tầm quan trọng ngày càng tăng của dữ liệu trong cuộc chạy đua vũ trang AI.