Các cuộc thảo luận gần đây trong cộng đồng AI đã làm nổi bật một điều bất thường thú vị: GPT-3.5-turbo-instruct của OpenAI thể hiện khả năng chơi cờ vua vượt trội đáng ngạc nhiên so với các mô hình ngôn ngữ mới hơn và tiên tiến hơn, bao gồm cả GPT-4. Điều đặc biệt này đã làm dấy lên nhiều cuộc tranh luận về nguyên nhân và ý nghĩa đối với sự phát triển của AI.
Bí ẩn về khả năng chơi cờ vua
Cộng đồng đặc biệt bối rối trước khả năng chơi cờ vua xuất sắc của GPT-3.5-turbo-instruct, nhất là khi nó được xem là một trong những mô hình ít quan trọng hơn của OpenAI theo tiêu chuẩn hiện nay. Điều làm cho khám phá này càng thú vị hơn là các mô hình mới hơn và tiên tiến hơn, bao gồm cả GPT-4, lại thể hiện kém hơn đáng kể trong cờ vua. Sự chênh lệch này đã dẫn đến nhiều giả thuyết và suy đoán trong cộng đồng kỹ thuật.
Tranh luận giữa Function Calling và khả năng tự nhiên
Một trong những lời giải thích được tranh luận nhiều nhất là liệu GPT-3.5-turbo-instruct có thể đang bí mật sử dụng một công cụ chơi cờ vua hay không. Tuy nhiên, nhiều chuyên gia trong cộng đồng đã đưa ra những lập luận thuyết phục chống lại giả thuyết này. Như một người bình luận đã nhận xét:
Là một người chơi cờ vua trình độ trung bình, tôi đã theo dõi một số ván thắng của LLM; tôi nhận thấy nó không giỏi trong việc chiếu hết - nó bỏ lỡ nhiều cơ hội chiếu hết bắt buộc. Nhưng chiếu hết bắt buộc lại là điều mà các công cụ cờ vua rất giỏi - có thể được tính toán bằng cách tìm kiếm đầy đủ các nước đi hợp lệ trong một vị trí bàn cờ nhất định.
Hiểu biết về triển khai kỹ thuật
Một chi tiết kỹ thuật quan trọng đã xuất hiện liên quan đến cách các mô hình xử lý các nước đi hợp lệ. Việc triển khai đòi hỏi các phương pháp tiếp cận khác nhau cho các mô hình mở và đóng, với các mô hình OpenAI cần đến 10 lần thử để tạo ra các nước đi hợp lệ trước khi mặc định chọn ngẫu nhiên. Đáng chú ý, GPT-3.5-turbo-instruct thể hiện rất ít nước đi không hợp lệ so với các mô hình khác, bao gồm cả GPT-4, nơi các nước đi không hợp lệ là nguyên nhân chính dẫn đến thất bại.
Các đặc điểm chính của mô hình:
- GPT-3.5-turbo-instruct: Thể hiện hiệu suất chơi cờ vua vượt trội
- Tỷ lệ nước đi không hợp lệ: GPT-3.5-turbo-instruct (ít hơn 5 trong 8205 nước đi), GPT-4 (số lượng nước đi không hợp lệ đáng kể dẫn đến thua cuộc)
- Phương pháp triển khai: Các mô hình mở sử dụng ràng buộc ngữ pháp cho các nước đi hợp lệ, các mô hình đóng ( OpenAI ) sử dụng tối đa 10 lần thử lại
Các lý thuyết về dữ liệu huấn luyện và kiến trúc
Cộng đồng đã đề xuất một số giải thích cho hiện tượng này, bao gồm khả năng dữ liệu huấn luyện của mô hình chứa tỷ lệ nội dung cờ vua cao hơn, hoặc các lựa chọn kiến trúc cụ thể đã vô tình tạo ra khả năng chơi cờ vua tốt hơn. Một số người cho rằng đây có thể là kết quả của một phương pháp huấn luyện thử nghiệm chưa từng được lặp lại trong các mô hình mới hơn.
Ý nghĩa đối với sự phát triển AI
Khám phá này có những ý nghĩa rộng lớn hơn đối với hiểu biết của chúng ta về khả năng và sự phát triển của AI. Cộng đồng lưu ý rằng trường hợp này cho thấy những cải tiến trong mô hình AI không phải lúc nào cũng mang tính tuyến tính, và các mô hình mới hơn, lớn hơn không nhất thiết thực hiện tốt hơn các nhiệm vụ cụ thể so với phiên bản tiền nhiệm. Quan sát này thách thức các giả định phổ biến về sự tiến bộ của AI và gợi ý rằng một số khả năng có thể bị mất đi hoặc suy giảm trong quá trình cập nhật mô hình.
Bí ẩn về khả năng chơi cờ vua của GPT-3.5-turbo-instruct nhắc nhở chúng ta rằng sự phát triển AI là phức tạp và đôi khi khó đoán, với các khả năng xuất hiện và biến mất theo những cách mà chúng ta chưa hiểu đầy đủ. Nghiên cứu điển hình này có thể ảnh hưởng đến các phương pháp tiếp cận trong tương lai về huấn luyện và đánh giá mô hình.
Nguồn tham khảo: Something weird is happening with LLMs and chess