Sự ra mắt gần đây của FrontierMath, một thước đo được thiết kế để kiểm tra khả năng toán học cao cấp của các hệ thống AI, đã làm dấy lên cuộc tranh luận sôi nổi trong cộng đồng công nghệ. Trong khi các mô hình AI hiện tại chỉ giải được 2% các bài toán cấp độ chuyên gia này, thị trường dự đoán đáng ngạc nhiên cho rằng tỷ lệ thành công có thể đạt 85% vào năm 2028.
Thiết kế độc đáo của thước đo
FrontierMath tách biệt với các thước đo toán học khác thông qua những bài toán được thiết kế cẩn thận, thường đòi hỏi các nhà toán học chuyên gia mất hàng giờ hoặc nhiều ngày để giải quyết. Các bài toán trải rộng trên nhiều lĩnh vực toán học và được thiết kế để không thể đoán mò với các đáp án là những con số lớn hoặc các đối tượng toán học phức tạp.
Sự hoài nghi của cộng đồng và lo ngại về rò rỉ dữ liệu
Một phần đáng kể của cuộc thảo luận tập trung vào những lo ngại về khả năng rò rỉ dữ liệu. Một số thành viên cộng đồng bày tỏ sự hoài nghi về tính hợp lệ của thị trường dự đoán, chỉ ra các mô hình lịch sử về việc các công ty AI có thể huấn luyện trên bộ kiểm tra. Như một người bình luận đã nêu:
Những thước đo này hoàn toàn vô nghĩa. Những người tạo ra chúng là các chuyên gia đang cố gắng áp dụng kỹ năng của họ vào các lĩnh vực không liên quan đến hiệu suất LLM, hơi giống như một vận động viên chạy nước rút tạo ra chế độ tập luyện cho máy bay chiến đấu. Nguồn
Cuộc tranh luận về AGI
Thước đo này cũng đã châm ngòi cho các cuộc thảo luận về những gì tạo nên Trí tuệ nhân tạo tổng quát (AGI). Trong khi một số người cho rằng việc giải các bài toán FrontierMath không cần thiết để đạt được AGI, những người khác lại cho rằng AGI thực sự phải có khả năng sánh ngang với bất kỳ khả năng nào của con người, bao gồm cả khả năng lập luận toán học ở cấp độ chuyên gia.
Giới hạn của mô hình hiện tại
Các thảo luận kỹ thuật cho thấy các LLM hiện tại gặp khó khăn với các nhiệm vụ lập luận toán học cơ bản, chẳng hạn như duyệt đồ thị quá bốn bước. Giới hạn cơ bản này cho thấy ngay cả khi các mô hình dường như giải được các bài toán phức tạp, chúng có thể đang dựa vào thông tin ghi nhớ hơn là khả năng lập luận toán học thực sự.
Hướng tới tương lai
Mặc dù có sự hoài nghi, một số chuyên gia cho rằng việc bác bỏ tiến bộ trong tương lai có thể là quá sớm. Lĩnh vực này đang phát triển nhanh chóng, với các kiến trúc và phương pháp huấn luyện mới xuất hiện thường xuyên. Tuy nhiên, khoảng cách giữa khả năng hiện tại và mức độ cần thiết để giải các bài toán FrontierMath vẫn còn rất lớn.
Giá trị thực sự của thước đo này có thể không nằm ở việc dự đoán mốc thời gian AGI, mà là việc cung cấp một mục tiêu rõ ràng, có thể đo lường được để nâng cao khả năng lập luận toán học của AI. Khi sự phát triển tiếp tục, FrontierMath có thể đóng vai trò như một công cụ quan trọng để xác thực các tuyên bố về sự tiến bộ của AI trong lập luận toán học.
Nguồn: FrontierMath: The Benchmark