Cộng đồng trí tuệ nhân tạo đang chìm trong tranh cãi sau những tiết lộ về việc OpenAI được tiếp cận các câu hỏi kiểm tra chuẩn FrontierMath, làm dấy lên những lo ngại nghiêm trọng về tính xác thực trong hiệu suất được báo cáo của mô hình O3 mới nhất của họ. Sự việc này đã châm ngòi cho cuộc tranh luận gay gắt về tính minh bạch và công bằng trong đánh giá mô hình AI.
Hình ảnh này mô tả một cuộc thảo luận về việc OpenAI gây tranh cãi khi tiếp cận tài liệu kiểm tra FrontierMath, nhấn mạnh mối quan ngại của cộng đồng về tính minh bạch trong việc đánh giá AI |
Tranh cãi về FrontierMath
Một tiết lộ quan trọng từ một nhà thầu của Epoch AI trên diễn đàn LessWrong cho thấy OpenAI không chỉ tài trợ cho bài kiểm tra chuẩn FrontierMath mà còn được tiếp cận đặc quyền với ngân hàng câu hỏi của nó. Thông tin này chỉ được tiết lộ sau khi O3 ra mắt vào ngày 20 tháng 12 năm 2024, gây nghi ngờ về tỷ lệ chính xác 25,2% được báo cáo, vượt xa so với mức dưới 2% của các đối thủ cạnh tranh.
So sánh hiệu suất giữa các mô hình:
- OpenAI O3: đạt độ chính xác 25.2% trên FrontierMath
- GPT-4 và Gemini: đạt độ chính xác dưới 2%
Ý nghĩa của bài kiểm tra chuẩn
FrontierMath đại diện cho một công cụ đánh giá quan trọng trong lập luận toán học nâng cao, được phát triển thông qua sự hợp tác giữa Epoch AI và hơn 60 nhà toán học ưu tú, bao gồm những người đoạt Huy chương Fields và các người ra đề thi Olympic Toán Quốc tế. Bài kiểm tra chuẩn bao gồm hàng trăm bài toán độc đáo phức tạp trong nhiều lĩnh vực toán học khác nhau, với những bài toán phức tạp đến mức ngay cả các chuyên gia cũng có thể mất nhiều ngày để giải.
Độ bao phủ của FrontierMath Benchmark:
- Các lĩnh vực toán học: Lý thuyết số, Giải tích thực, Hình học đại số, Lý thuyết phạm trù
- Cộng tác viên: Hơn 60 nhà toán học hàng đầu bao gồm những người đoạt Huy chương Fields
- Độ khó của bài toán: Đòi hỏi từ vài giờ đến nhiều ngày để các chuyên gia giải quyết
Phản ứng và chỉ trích từ giới học thuật
Nghiên cứu sinh tiến sĩ toán học tại Đại học Stanford, Carina Hong, đã đưa ra lời khai từ sáu nhà toán học nổi tiếng đã đóng góp cho FrontierMath, tiết lộ rằng họ không hề biết về quyền tiếp cận độc quyền của OpenAI. Phần lớn cho biết họ có thể đã từ chối tham gia nếu biết trước về những thỏa thuận này.
Phản hồi từ Epoch AI
Tamay Besiroglu, phó giám đốc và đồng sáng lập Epoch AI, đã thừa nhận sự thiếu minh bạch, giải thích rằng các nghĩa vụ hợp đồng đã ngăn cản việc tiết lộ sớm hơn. Mặc dù khẳng định rằng tài trợ của OpenAI chỉ giới hạn trong phát triển mà không ảnh hưởng đến nội dung kiểm tra, họ đã xác nhận OpenAI có quyền truy cập vào hầu hết các bài toán và lời giải, ngoại trừ một bộ kiểm tra dự phòng để xác minh độc lập.
Chỉ trích từ chuyên gia
Chuyên gia AI nổi tiếng Gary Marcus đã chỉ trích mạnh mẽ tình huống này, cho rằng việc trình diễn O3 của OpenAI là gây hiểu lầm và không đúng đắn về mặt khoa học. Tranh cãi đặc biệt tập trung vào việc thiếu minh bạch về việc những bài toán nào đã xuất hiện trong dữ liệu huấn luyện và việc thiếu ghi chép chi tiết về quá trình lập luận.
Những hệ quả tương lai
Khi tranh cãi này đang diễn ra, OpenAI đã công bố những tiến bộ trong dự án Operator của họ, với CEO Altman dự kiến sẽ có buổi họp kín với chính phủ Hoa Kỳ vào ngày 30 tháng 1 năm 2025. Thời điểm này đã dẫn đến những đồn đoán về chiến lược quản lý khủng hoảng và những tác động rộng lớn hơn đối với thực tiễn trong ngành công nghiệp AI.