Một nghiên cứu mới từ các nhà khoa học của Apple đã đặt ra nghi vấn về khả năng suy luận toán học của các mô hình ngôn ngữ lớn (LLM) như ChatGPT, nhấn mạnh những hạn chế tiềm tàng trong việc sử dụng chúng cho các tác vụ giải quyết vấn đề và ra quyết định phức tạp.
Nghiên cứu do nhóm AI và học máy của Apple dẫn đầu, giới thiệu một tiêu chuẩn đánh giá mới có tên GSM-Symbolic để đánh giá khả năng suy luận toán học của các LLM. Kết quả của họ cho thấy các mô hình AI hiện tại gặp khó khăn với việc suy luận logic thực sự, đặc biệt khi các vấn đề trở nên phức tạp hơn.
Những điểm chính từ nghiên cứu bao gồm:
- LLM dựa vào việc so khớp mẫu từ dữ liệu huấn luyện hơn là suy luận thực sự
- Độ chính xác giảm đáng kể (từ 80-90% xuống còn khoảng 40%) khi độ phức tạp của vấn đề tăng lên
- Các tiêu chuẩn đánh giá hiện có như GSM8K có thể đánh giá quá cao hiệu suất AI do khả năng nhiễm dữ liệu
- Ngay cả các mô hình tiên tiến như Gemma2-9B của Google cũng cho thấy sự sụt giảm độ chính xác 15% khi được kiểm tra với GSM-Symbolic
Những kết quả này có ý nghĩa quan trọng đối với các doanh nghiệp và cá nhân đang cân nhắc áp dụng AI:
- Các công cụ AI như ChatGPT có thể hữu ích cho một số tác vụ nhất định nhưng không nên được tin cậy cho việc ra quyết định phức tạp hoặc các hoạt động quan trọng.
- Sự giám sát và chuyên môn của con người vẫn rất quan trọng, đặc biệt là trong các lĩnh vực đòi hỏi suy luận sâu sắc hoặc kiến thức chuyên môn.
- Các tổ chức nên đầu tư thận trọng vào AI, tập trung vào những lĩnh vực mà AI chứng minh được sự xuất sắc thay vì giả định rằng nó có thể giải quyết mọi vấn đề.
- Các đội ngũ cần được đào tạo về cả khả năng và hạn chế của AI để tránh sự phụ thuộc quá mức hoặc tự mãn.
Mặc dù nghiên cứu của Apple có vẻ mâu thuẫn với việc họ quảng bá Apple Intelligence, nhưng nó thể hiện sự minh bạch đáng khen ngợi về tình trạng hiện tại của công nghệ AI. Khi AI tiếp tục phát triển, việc hiểu rõ điểm mạnh và điểm yếu của nó sẽ rất quan trọng cho việc triển khai có trách nhiệm trong các ngành công nghiệp.
Hiện tại, thông điệp rõ ràng là: AI là một công cụ mạnh mẽ, nhưng chưa sẵn sàng để thay thế suy luận và ra quyết định của con người trong các tình huống phức tạp. Khi chúng ta điều hướng cuộc cách mạng AI, một cách tiếp cận cân bằng tận dụng cả trí tuệ nhân tạo và trí tuệ con người có khả năng mang lại kết quả tốt nhất.