Nghiên Cứu Tiết Lộ Các Mô Hình Cơ Bản Đã Sở Hữu Khả Năng "Khoảnh Khắc Eureka" Trước Khi Huấn Luyện R1-Zero

BigGo Editorial Team
Nghiên Cứu Tiết Lộ Các Mô Hình Cơ Bản Đã Sở Hữu Khả Năng "Khoảnh Khắc Eureka" Trước Khi Huấn Luyện R1-Zero

Trong một phát triển đáng ngạc nhiên đối với cộng đồng nghiên cứu AI, một bài báo mới có tựa đề Understanding R1-Zero-Like Training: A Critical Perspective đã thách thức các giả định phổ biến về cách các mô hình ngôn ngữ lớn (LLMs) phát triển khả năng suy luận. Nghiên cứu cho thấy rằng các mô hình cơ bản như DeepSeek-V3-Base và Qwen2.5 đã sở hữu khả năng suy luận đáng kể trước khi trải qua quá trình huấn luyện học tăng cường chuyên biệt.

Các Mô Hình Cơ Bản Đã Thể Hiện Khả Năng Suy Luận Nâng Cao

Theo bài báo nghiên cứu, các mô hình DeepSeek-V3-Base đã thể hiện điều mà các nhà nghiên cứu gọi là khoảnh khắc Eureka - bước đột phá được cho là trong khả năng suy luận mà nhiều người đã gán cho các kỹ thuật huấn luyện R1-Zero chuyên biệt. Điều còn đáng kinh ngạc hơn là phát hiện rằng các mô hình cơ bản Qwen2.5 thể hiện khả năng suy luận mạnh mẽ mà không cần mẫu nhắc, với điểm chuẩn cải thiện khoảng 60% so với các phương pháp nhắc truyền thống.

Tiết lộ này đã làm dấy lên cuộc thảo luận đáng kể trong các cộng đồng kỹ thuật, với nhiều chuyên gia đặt câu hỏi về giá trị thực tế được thêm vào bởi các quy trình học tăng cường mở rộng.

Tôi xin đưa ra một lời giải thích thay thế, có thể xảy ra. Sau khi đã huấn luyện khá nhiều LLM, đặc biệt là về việc nâng cấp từ mô hình hoàn thành văn bản đến mô hình theo hướng dẫn, tôi nhận thấy rằng khả năng tuân theo hướng dẫn thường không đồng đều trên tất cả các nhiệm vụ mà LLM có thể thực hiện.

Những phát hiện chính từ nghiên cứu

  • Các mô hình DeepSeek-V3-Base đã thể hiện khả năng "Khoảnh khắc Aha" trước khi được đào tạo chuyên biệt
  • Các mô hình cơ bản Qwen2.5 cho thấy sự cải thiện khoảng 60% trong điểm đánh giá chuẩn mà không cần mẫu nhắc
  • Thuật toán GRPO dẫn đến tối ưu hóa thiên vị, được giải quyết bằng bản sửa lỗi "Dr. GRPO" được đề xuất
  • Công thức tối giản R1-Zero đạt hiệu suất SOTA chỉ với 27 giờ tính toán trên 8 GPU A100
  • Mẫu và bộ câu hỏi thực hiện song ca để ảnh hưởng đến động lực RL
  • Llama cũng có thể được điều chỉnh RL từ các mô hình cơ bản với việc đào tạo trước theo lĩnh vực cụ thể cải thiện giới hạn RL
Hình ảnh này trình bày các tình huống giải quyết vấn đề toán học liên quan đến khả năng lập luận của các mô hình cơ sở
Hình ảnh này trình bày các tình huống giải quyết vấn đề toán học liên quan đến khả năng lập luận của các mô hình cơ sở

Đặt Câu Hỏi về Vai Trò của Các Token Chuỗi Suy Luận

Các cuộc thảo luận trong cộng đồng đã nêu bật những lo ngại về điều mà các nhà nghiên cứu gọi là Tự Phản Ánh Hời Hợt trong các mô hình này. Nhiều người dùng đã quan sát thấy rằng kết luận trong đầu ra của mô hình không phải lúc nào cũng tự nhiên theo sau các token suy nghĩ được tạo ra trong quá trình chuỗi suy luận. Sự ngắt kết nối này đặt ra câu hỏi về vai trò thực sự của các token suy nghĩ này trong việc cải thiện hiệu suất.

Một số người bình luận cho rằng lợi ích của các token bổ sung có thể đơn giản hơn nhiều so với niềm tin phổ biến - nhiều token chỉ đơn giản là giảm các lựa chọn cho chuỗi đầu ra cuối cùng, thay vì đại diện cho suy nghĩ thực tế. Những người khác đề xuất rằng thậm chí việc thêm khoảng trắng hoặc các ký tự lặp lại cũng có thể cải thiện chất lượng đầu ra bằng cách cho phép mô hình đi vào các trạng thái nội bộ khác nhau, hiệu quả sử dụng các token này như các điểm trung gian xử lý.

Cải Tiến Hiệu Quả trong Huấn Luyện R1-Zero

Bài báo giới thiệu một phương pháp hiệu quả hơn cho việc huấn luyện kiểu R1-Zero, đề xuất một sửa đổi cho thuật toán GRPO (Generalized Reinforcement Learning from Preference Optimization) nhằm cải thiện hiệu quả token trong khi vẫn duy trì hiệu suất suy luận. Phương pháp được sửa đổi này, được gọi là Dr. GRPO (GRPO Done Right), đã cho phép các nhà nghiên cứu đạt được hiệu suất tiên tiến bằng cách RL-tuning Qwen2.5-Math-7B trên các câu hỏi MATH cấp độ 3-5 với tài nguyên tính toán khiêm tốn đáng kể - chỉ 27 giờ trên 8 GPU A100.

Đối với cộng đồng AI, đặc biệt là những người chạy các mô hình trọng số mở trên phần cứng người tiêu dùng, cải tiến hiệu quả này có thể giảm đáng kể chi phí thời gian suy luận liên quan đến các quy trình chuỗi suy luận dài hiện đang chiếm dụng không gian cửa sổ ngữ cảnh quý giá.

Hình ảnh này minh họa công thức Dr GRPO và so sánh hiệu quả token, làm nổi bật những tiến bộ trong đào tạo học tăng cường
Hình ảnh này minh họa công thức Dr GRPO và so sánh hiệu quả token, làm nổi bật những tiến bộ trong đào tạo học tăng cường

Nhu Cầu về Đánh Giá Nghiêm Ngặt và Ít Phóng Đại

Nghiên cứu này xuất hiện vào thời điểm nhiều người trong cộng đồng AI đang kêu gọi đánh giá nghiêm ngặt hơn về khả năng của mô hình và ít phóng đại trong tiếp thị. Các nhà bình luận đã chỉ ra những ví dụ khác trong đó kết quả đánh giá đã bị phóng đại, chẳng hạn như điểm chuẩn lập trình SWE-verified được sử dụng bởi các nhà cung cấp lớn, theo báo cáo có chưa đến 10% vấn đề được giải quyết đúng cách.

Một số thành viên cộng đồng vẫn hoài nghi về các tuyên bố về khả năng suy luận thực sự trong các mô hình này, cho rằng điều xuất hiện như suy luận có thể chỉ đơn giản là so khớp mẫu thống kê dựa trên dữ liệu huấn luyện mở rộng. Sự khác biệt giữa khả năng tính toán (khả năng tính toán cơ bản) và suy luận toán học thực sự tiếp tục được tranh luận.

Nghiên cứu này đại diện cho một bước quan trọng hướng tới đánh giá minh bạch và thực tế hơn về khả năng AI, nhấn mạnh nhu cầu hiểu những gì các mô hình này thực sự đang làm thay vì gán các quy trình suy luận giống con người cho các hệ thống thống kê.

Tham khảo: Understanding R1-Zero-Like Training: A Critical Perspective

Biểu đồ cột này so sánh hiệu suất của các mô hình trên nhiều tiêu chuẩn đánh giá khác nhau, nhấn mạnh tầm quan trọng của việc đánh giá nghiêm ngặt trong khả năng AI
Biểu đồ cột này so sánh hiệu suất của các mô hình trên nhiều tiêu chuẩn đánh giá khác nhau, nhấn mạnh tầm quan trọng của việc đánh giá nghiêm ngặt trong khả năng AI