Việc phát hành gần đây các mô hình Skywork-OR1 (Open Reasoner 1) đã làm dấy lên nhiều cuộc thảo luận trong cộng đồng AI, đặc biệt liên quan đến cách các mô hình này được giới thiệu so với phương pháp phát triển thực tế của chúng. Mặc dù các mô hình cho thấy hiệu suất ấn tượng trên các tiêu chuẩn đánh giá về toán học và lập trình, các thành viên cộng đồng đã nêu lên những lo ngại về tính minh bạch trong cách mô tả và tiếp thị các mô hình này.
Fine-tuning so với kiến trúc gốc
Dòng Skywork-OR1, bao gồm Skywork-OR1-Math-7B, Skywork-OR1-32B-Preview và Skywork-OR1-7B-Preview, đã được quảng bá về hiệu suất mạnh mẽ trên các tiêu chuẩn như AIME24, AIME25 và LiveCodeBench. Tuy nhiên, các thành viên cộng đồng đã chỉ ra rằng những mô hình này là phiên bản tinh chỉnh của các mô hình hiện có thay vì là kiến trúc hoàn toàn mới - một thực tế chỉ được đề cập ở cuối thông báo của Skywork.
Không phải để giảm giá trị công việc của họ nhưng điều này không nên bị giấu ở cuối trang - có sự khác biệt lớn giữa việc tạo ra mô hình hoàn toàn mới và việc tinh chỉnh.
Các mô hình này được xây dựng dựa trên DeepSeek-R1-Distill-Qwen-7B và DeepSeek-R1-Distill-Qwen-32B, vốn đã là các phiên bản cô đọng của các mô hình khác. Cách tiếp cận phát triển mô hình theo lớp này đã thúc đẩy các cuộc thảo luận về quy ước đặt tên và tính minh bạch trong cộng đồng nghiên cứu AI. Một số người bình luận lưu ý rằng các công ty khác như Meta yêu cầu rõ ràng các sản phẩm phái sinh phải bao gồm tên mô hình gốc (như Llama) ở đầu tên mô hình mới.
![]() |
---|
Kho lưu trữ GitHub của các mô hình Skywork-OR1, trình bày mã nguồn và cấu trúc của chúng, liên quan đến cuộc thảo luận về fine-tuning so với kiến trúc gốc |
Tính phù hợp của các tiêu chuẩn đánh giá bị đặt câu hỏi
Một điểm tranh cãi khác trong cuộc thảo luận của cộng đồng tập trung vào các tiêu chuẩn được sử dụng để đánh giá các mô hình. Một số người dùng đặt câu hỏi về tính phù hợp của việc sử dụng điểm số AIME24 khi mô hình có thể đã được đào tạo trên cùng bộ dữ liệu đó. Một người bình luận chỉ ra rằng đây là vấn đề phổ biến trong đánh giá mô hình AI, vì hầu hết các bộ dữ liệu chuẩn cuối cùng đều được đưa vào dữ liệu đào tạo.
Sự sụt giảm đáng kể về hiệu suất giữa điểm số AIME24 và AIME25 (ví dụ, Skywork-OR1-Math-7B đạt 69,8 trên AIME24 nhưng chỉ đạt 52,3 trên AIME25) dường như xác nhận mối lo ngại này, cho thấy mô hình hoạt động tốt hơn trên dữ liệu mà nó có thể đã thấy trong quá trình đào tạo.
So sánh hiệu suất mô hình (Avg@32)
Mô hình | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
![]() |
---|
Một biểu đồ đường mô tả hiệu suất của mô hình Skywork-OR1-Math-7B trên tập dữ liệu AIME24, minh họa những lo ngại về tính phù hợp của điểm chuẩn được đề cập trong cuộc thảo luận |
Sự đánh đổi hiệu suất của mô hình cục bộ
Cuộc thảo luận cũng đề cập đến chủ đề rộng hơn về việc chạy các mô hình AI cục bộ so với sử dụng dịch vụ dựa trên đám mây. Các thành viên cộng đồng chia sẻ kinh nghiệm của họ với các mô hình cục bộ khác nhau, lưu ý rằng mặc dù chúng có thể nhanh hơn cho một số tác vụ nhất định, nhưng thường có sự đánh đổi giữa tốc độ, độ chính xác và tính linh hoạt.
Đối với người dùng có hạn chế về phần cứng cụ thể, chẳng hạn như bộ nhớ GPU hạn chế, việc chọn đúng mô hình trở nên quan trọng. Một số người bình luận đề cập rằng mặc dù không có mô hình cục bộ nào thực hiện tốt mọi thứ như các mô hình dựa trên đám mây như ChatGPT hoặc Gemini, các mô hình chuyên biệt có thể xuất sắc trong các tác vụ cụ thể như lập trình (với các mô hình như qwen 2.5 coder 32b được khuyến nghị).
Cam kết mã nguồn mở
Mặc dù có những lo ngại được nêu ra, cộng đồng đã phản ứng tích cực với cam kết mã nguồn mở của Skywork. Công ty đã hứa sẽ phát hành không chỉ trọng số mô hình mà còn cả dữ liệu đào tạo và mã của họ, mặc dù tại thời điểm thông báo, một số tài nguyên này vẫn được liệt kê là Sắp ra mắt.
Cách tiếp cận mở này có thể giải quyết một số lo ngại về tính minh bạch được cộng đồng nêu ra, cho phép những người khác hiểu rõ hơn về cách các mô hình này được phát triển và có thể phát triển thêm dựa trên chúng.
Các mô hình Skywork-OR1 đại diện cho một trường hợp nghiên cứu thú vị trong bối cảnh phát triển mô hình AI đang phát triển, nơi ranh giới giữa nghiên cứu gốc, cô đọng và tinh chỉnh tiếp tục mờ nhạt. Khi những thực tiễn này trở nên phổ biến hơn, cộng đồng AI dường như đang kêu gọi các tiêu chuẩn rõ ràng hơn về cách trình bày và ghi nhận công lao cho những công việc như vậy.
Tham khảo: Skywork-OR1 (Open Reasoner 1)