Apple bác bỏ cáo buộc sử dụng phụ đề YouTube để huấn luyện AI
Apple đã phản hồi những cáo buộc gần đây về việc công ty sử dụng phụ đề video YouTube để huấn luyện hệ thống trí tuệ nhân tạo của mình, được gọi là Apple Intelligence. Gã khổng lồ công nghệ đã làm rõ về nguồn dữ liệu và phương pháp huấn luyện của họ, hé lộ thế giới phức tạp của việc phát triển AI và sử dụng dữ liệu.
Những cáo buộc ban đầu
Một cuộc điều tra của Proof News, được đồng công bố với Wired, cáo buộc rằng Apple, cùng với các công ty công nghệ khác như Nvidia, Anthropic và Salesforce, đã sử dụng một bộ dữ liệu có tên YouTube Subtitles để huấn luyện mô hình AI của họ. Bộ dữ liệu này được cho là chứa bản ghi từ hơn 173.000 video YouTube trên 48.000 kênh, bao gồm từ nội dung giáo dục đến video của các nhà sáng tạo nội dung nổi tiếng.
Phản hồi của Apple
Trong một phản bác nhanh chóng, Apple đã phủ nhận việc sử dụng trực tiếp phụ đề YouTube để huấn luyện Apple Intelligence. Công ty khẳng định họ tôn trọng quyền của các nhà sáng tạo và nhà xuất bản, nhấn mạnh cam kết của mình về các phương pháp phát triển AI có đạo đức.
Những điểm chính từ lời giải thích của Apple:
- Apple sử dụng dữ liệu OpenELM, không phải bộ dữ liệu của EleutherAI, để huấn luyện AI.
- Công ty cho phép các trang web lựa chọn không cho phép dữ liệu của họ được sử dụng để huấn luyện AI.
- Apple huấn luyện các mô hình AI của mình bằng dữ liệu chất lượng cao, bao gồm nội dung được cấp phép và một số dữ liệu công khai trên web.
- Các bộ dữ liệu OpenELM chỉ dành cho mục đích nghiên cứu và không được sử dụng trong các thiết bị Apple dành cho người tiêu dùng.
Sự phức tạp của dữ liệu huấn luyện AI
Tình huống này làm nổi bật bản chất phức tạp của nguồn dữ liệu huấn luyện AI. Mặc dù Apple tuyên bố đã sử dụng OpenELM thay vì bộ dữ liệu của EleutherAI, đáng chú ý là các nhà nghiên cứu làm việc trên OpenELM đã thừa nhận rằng họ đã huấn luyện nó trên dữ liệu Pile, có thể bao gồm cả phụ đề YouTube.
Quan điểm của YouTube
YouTube đã nêu rõ rằng việc sử dụng nội dung của họ, bao gồm cả bản ghi video, để huấn luyện AI sẽ vi phạm điều khoản dịch vụ của nền tảng. Điều này đặt các công ty công nghệ vào một vị trí khó khăn khi họ tìm cách phát triển các hệ thống AI tiên tiến trong khi vẫn tôn trọng quyền của người sáng tạo nội dung.
Ảnh hưởng đối với ngành công nghiệp AI
Tranh cãi này đặt ra những câu hỏi quan trọng về đạo đức và tính hợp pháp của việc sử dụng dữ liệu công khai để huấn luyện AI. Khi công nghệ AI tiếp tục phát triển, chúng ta có thể mong đợi những cuộc tranh luận liên tục và các thách thức pháp lý tiềm ẩn liên quan đến việc sử dụng nội dung trực tuyến cho mục đích học máy một cách phù hợp.
Khi bối cảnh AI phát triển, các công ty công nghệ như Apple sẽ cần phải điều hướng cẩn thận giữa đổi mới và tôn trọng quyền sở hữu trí tuệ. Ngành công nghiệp có thể cần phát triển các tiêu chuẩn và thực hành mới để thu thập dữ liệu huấn luyện một cách có đạo đức, nhằm đảm bảo sự phát triển liên tục của công nghệ AI trong khi vẫn bảo vệ người sáng tạo nội dung.