Xiaomi đã tham gia vào cuộc đua AI với MiMo-7B, một dòng mô hình ngôn ngữ mới thể hiện khả năng suy luận đặc biệt dù có kích thước tham số tương đối nhỏ. Mô hình này, tập trung vào cả nhiệm vụ toán học và lập trình, đang tạo ra sự quan tâm đáng kể trong cộng đồng nhà phát triển nhờ hiệu suất ấn tượng trên các tiêu chuẩn đánh giá, có thể cạnh tranh với nhiều mô hình lớn hơn nhiều.
![]() |
---|
Một ảnh chụp màn hình kho lưu trữ GitHub của Xiaomi MiMo, chi tiết về sự phát triển và tính khả dụng mã nguồn mở của nó |
Mô hình nền tảng sinh ra để suy luận
MiMo-7B nổi bật với cách tiếp cận phát triển mô hình, tập trung vào khả năng suy luận từ nền tảng thay vì chỉ thông qua đào tạo sau. Đội ngũ của Xiaomi đã tối ưu hóa quá trình tiền đào tạo với bộ công cụ trích xuất dữ liệu nâng cao và lọc đa chiều để tăng mật độ mẫu suy luận. Mô hình cơ bản được tiền đào tạo trên khoảng 25 nghìn tỷ token - một quy mô tương đương với Llama 4 Maverick của Meta, vốn sử dụng 22 nghìn tỷ token. Kho dữ liệu đào tạo khổng lồ này thể hiện đầu tư đáng kể về tài nguyên tính toán thường chỉ gắn liền với các công ty công nghệ lớn hơn nhiều.
Đây là một hướng đi thú vị - không phải là mô hình được chưng cất hay một lớp RL để lấy khả năng suy luận từ mô hình khác, mà là một mô hình RL xây dựng từ đầu với khả năng suy luận được tích hợp sẵn; các tuyên bố dường như cho thấy bạn nhận được hiệu quả cao hơn nhiều trên mỗi tham số khi làm điều này.
Thách thức các mô hình lớn hơn với kết quả đánh giá ấn tượng
Cộng đồng đã bày tỏ cả sự phấn khích lẫn hoài nghi về kết quả đánh giá của MiMo-7B. Theo báo cáo, mô hình này vượt trội so với nhiều mô hình lớn hơn, bao gồm cả một số mô hình 32B tham số, đặc biệt là trong các nhiệm vụ lập trình. Một người dùng lưu ý rằng hiệu suất của MiMo-7B trên các tiêu chuẩn đánh giá lập trình (57,8) đạt gần với Gemini Pro 2.5 (67,8) và Gemini 2.5 Flash (60,6). Mức hiệu suất này từ một mô hình 7B là không bình thường, khiến một số người đặt câu hỏi liệu mô hình có thể bị overfitted cho các bài kiểm tra tiêu chuẩn—một lời chỉ trích phổ biến trong bối cảnh AI hiện tại khi nhiều mô hình được đào tạo trên các bộ dữ liệu tiêu chuẩn.
Đổi mới trong đào tạo cho lập trình và toán học
Cách tiếp cận của Xiaomi đối với học tăng cường cho việc tạo mã đã thu hút sự quan tâm đặc biệt. Đội ngũ đã tuyển chọn 130.000 bài toán và bài toán lập trình có thể được xác minh bởi các hệ thống dựa trên quy tắc. Đối với các bài toán lập trình cụ thể, họ đã triển khai hệ thống phần thưởng dựa trên độ khó của bài kiểm tra, gán điểm chi tiết dựa trên độ phức tạp của các trường hợp kiểm tra, cung cấp tối ưu hóa hiệu quả hơn thông qua tín hiệu phần thưởng dày đặc. Động cơ Seamless Rollout của họ đẩy nhanh quá trình đào tạo và xác nhận RL bằng cách tích hợp triển khai liên tục, tính toán phần thưởng không đồng bộ và kết thúc sớm, được báo cáo là đạt tốc độ đào tạo nhanh hơn 2 lần.
Tổng quan về các Mô hình MiMo-7B
Mô hình | Mô tả | Đường dẫn |
---|---|---|
MiMo-7B-Base | Mô hình cơ bản với tiềm năng suy luận | HuggingFace |
MiMo-7B-RL-Zero | Mô hình RL được huấn luyện từ mô hình cơ bản | HuggingFace |
MiMo-7B-SFT | Mô hình SFT được huấn luyện từ mô hình cơ bản | HuggingFace |
MiMo-7B-RL | Mô hình RL được huấn luyện từ mô hình SFT | HuggingFace |
Các Tính năng Kỹ thuật Chính:
- Được tiền huấn luyện trên khoảng 25 nghìn tỷ token
- Tích hợp Dự đoán Đa Token như một mục tiêu huấn luyện bổ sung
- Sử dụng hệ thống phần thưởng mã dựa trên độ khó của bài kiểm tra
- Triển khai chiến lược lấy mẫu lại dữ liệu để tăng hiệu quả huấn luyện
- Phát triển với "Động cơ Triển khai Liền mạch" giúp huấn luyện nhanh hơn 2,295 lần
Sự trỗi dậy của các mô hình cục bộ
Hiệu suất ấn tượng của MiMo-7B góp phần vào xu hướng ngày càng tăng của các mô hình nhỏ hơn, có thể chạy cục bộ, ngày càng trở nên mạnh mẽ. Các thành viên cộng đồng đã lưu ý rằng chất lượng của các mô hình nhỏ hơn đã được cải thiện đều đặn, biến chúng thành những lựa chọn thay thế khả thi cho các dịch vụ dựa trên đám mây cho nhiều tác vụ hàng ngày. Sự phát triển này có ý nghĩa quan trọng đối với quyền riêng tư, chi phí và khả năng tiếp cận—cho phép các nhà phát triển xây dựng ứng dụng mà không phụ thuộc vào các cuộc gọi API đến các dịch vụ độc quyền.
Cân nhắc đa ngôn ngữ
Một cuộc thảo luận thú vị đã nổi lên xung quanh lựa chọn của Xiaomi khi phát hành một mô hình thông thạo tiếng Anh mặc dù là một công ty Trung Quốc. Các thành viên cộng đồng chỉ ra rằng tiếng Anh chiếm ưu thế trong nội dung internet (43% dữ liệu Common Crawl), khiến nó trở thành lựa chọn thực tế cho dữ liệu đào tạo. Ngoài ra, cộng đồng nghiên cứu khoa học và các tiêu chuẩn AI chủ yếu sử dụng tiếng Anh, khiến nó trở thành lựa chọn hợp lý cho việc phát triển mô hình bất kể nguồn gốc của công ty. Một số người dùng lưu ý rằng nội dung internet Trung Quốc khó thu thập hơn do các hệ sinh thái đóng do các tập đoàn lớn kiểm soát, tạo ra thách thức bổ sung cho việc đào tạo các mô hình ưu tiên tiếng Trung.
Trọng số mở và khả năng tiếp cận
Xiaomi đã mở mã nguồn dòng MiMo-7B, bao gồm các điểm kiểm tra cho mô hình cơ sở, mô hình SFT (Supervised Fine-Tuning) và hai mô hình RL (Reinforcement Learning). Cộng đồng đã bắt đầu chuyển đổi mô hình sang các định dạng dễ tiếp cận hơn như GGUF để sử dụng với các công cụ như Ollama và LM Studio, mở rộng phạm vi tiếp cận đến các nhà phát triển muốn chạy nó cục bộ. Động thái này phù hợp với xu hướng ngày càng tăng của việc làm cho các mô hình AI dễ tiếp cận hơn đối với các nhà phát triển và nhà nghiên cứu bên ngoài các công ty công nghệ lớn.
Khi các mô hình nhỏ hơn tiếp tục cải thiện khả năng trong khi vẫn đủ hiệu quả để chạy cục bộ, chúng ta có thể thấy sự thay đổi trong cách AI được triển khai trong các ứng dụng hàng ngày. MiMo-7B đại diện cho một bước tiến khác hướng tới AI mạnh mẽ, dễ tiếp cận mà không đòi hỏi tài nguyên tính toán khổng lồ hoặc phụ thuộc vào đám mây.
Tham khảo: Xiaomi MiMo