Các thử nghiệm gần đây với Mô hình Ngôn ngữ Lớn (LLM) trong việc chơi trò chơi bài Set đã cho thấy những hạn chế thú vị trong khả năng suy luận của chúng, làm dấy lên những cuộc thảo luận về bản chất của trí tuệ nhân tạo và tư duy máy móc. Trong khi những mô hình này xuất sắc trong các tác vụ lập trình phức tạp, chúng lại thể hiện những điểm yếu đáng ngạc nhiên trong các tình huống chơi game đòi hỏi suy luận không gian và logic.
Thử thách Set
Trò chơi bài Set là một trường hợp thử nghiệm thú vị cho trí tuệ nhân tạo. Người chơi phải xác định các bộ ba lá bài từ một bố cục, trong đó mỗi lá bài có bốn thuộc tính - hình dạng, màu sắc, số lượng và độ bóng. Điều đặc biệt thú vị là trong khi các thuật toán truyền thống có thể dễ dàng giải quyết trò chơi này, thì ngay cả những LLM tiên tiến như GPT-4 vẫn gặp khó khăn trong việc tìm ra các bộ hợp lệ hoặc đưa ra những khẳng định sai lầm về sự tồn tại của chúng.
Vượt xa khả năng lập trình
Một mô hình đáng chú ý đã xuất hiện trong cách LLM xử lý các nhiệm vụ liên quan đến trò chơi. Các cuộc thảo luận trong cộng đồng cho thấy trong khi những mô hình này có thể dễ dàng viết mã để giải quyết các trò chơi như Tic-tac-toe hay Set, chúng thường thất bại trong việc thực sự chơi những trò chơi này. Sự khác biệt này giữa khả năng lập trình và hiệu suất chơi game đặt ra những câu hỏi quan trọng về bản chất suy luận của AI.
Tôi luôn nói rằng việc thêm use python vào câu lệnh của bạn là một cụm từ ma thuật giúp 4o trở nên cực kỳ mạnh mẽ trong nhiều tác vụ khác nhau.
Cuộc tranh luận về Máy tư duy
Sự xuất hiện của các mô hình suy luận mới như DeepThink-R1 và o3-mini, có khả năng giải quyết thành công các câu đố Set, đã châm ngòi cho những cuộc thảo luận mới về ý thức máy móc. Các thành viên cộng đồng nhận thấy rằng trong khi những mô hình này thể hiện khả năng suy luận được cải thiện, vẫn còn những câu hỏi cơ bản về việc liệu đây có phải là tư duy theo nghĩa thực sự hay không. Một số người cho rằng tư duy con người có thể ít kỳ diệu hơn những gì được giả định trước đây, thay vì máy móc đạt được khả năng tư duy thực sự kỳ diệu.
Hiệu suất của các mô hình trên trò chơi Set:
- GPT-4o: Đề xuất các bộ không hợp lệ, không vượt qua kiểm chứng
- Sonnet-3.5: Thất bại nhưng thừa nhận sự thất bại
- Mistral: Thành công khi sử dụng mã Python
- o3-mini: Tìm được 3 bộ trong 1 phút 12 giây
- DeepThink-R1: Tìm được 3 bộ trong 10 phút
Giới hạn kiến trúc
Một vấn đề kỹ thuật quan trọng được đề cập trong các cuộc thảo luận là vấn đề mất mạch lạc trong kiến trúc LLM hiện tại. Không giống như ý thức con người, vốn duy trì tính liên tục của tư duy, LLM hiện tại hoạt động trong các chu kỳ phản hồi rời rạc và gặp khó khăn trong việc duy trì trạng thái liên tục. Giới hạn kiến trúc này có thể giải thích một số khó khăn của chúng trong các trò chơi đòi hỏi suy luận và theo dõi trạng thái liên tục.
Việc tiếp tục khám phá khả năng của LLM trong môi trường trò chơi đang cung cấp những hiểu biết quý giá về cả điểm mạnh và hạn chế của công nghệ AI hiện tại, đồng thời thách thức hiểu biết của chúng ta về những gì tạo nên trí thông minh và khả năng suy luận thực sự.
Tham khảo: Let Them Play Set!
![]() |
---|
Trang kho lưu trữ GitHub của "When AI Fails" nêu bật những cuộc thảo luận và phát hiện đang diễn ra về giới hạn của AI trong các nhiệm vụ lập luận |