DeepSeek đã tạo nên làn sóng trong cộng đồng AI với việc ra mắt dòng mô hình suy luận R1, chứng minh rằng những tiến bộ đáng kể trong AI có thể đạt được với nguồn lực tương đối khiêm tốn. Công ty này, với chi phí tính toán chỉ 5,5 triệu đô la Mỹ để xây dựng mô hình V3, hiện đang cung cấp các mô hình mở có hiệu suất được cho là ngang bằng hoặc vượt trội hơn các đối thủ thương mại hàng đầu với chi phí thấp hơn nhiều.
Ảnh chụp màn hình kho lưu trữ GitHub của DeepSeek-R1, trình bày các mô hình suy luận và tài nguyên sẵn có |
Cách tiếp cận mới về khả năng suy luận
DeepSeek R1 giới thiệu một cách tiếp cận đột phá bằng cách chứng minh rằng khả năng suy luận có thể được phát triển hoàn toàn thông qua học tăng cường (RL), mà không cần tinh chỉnh có giám sát (SFT). Thành tựu này thể hiện một bước ngoặt đáng kể so với các phương pháp truyền thống, cho thấy các mô hình có thể tự nhiên phát triển hành vi suy luận phức tạp chỉ thông qua RL. Đặc điểm nổi bật của mô hình là quá trình tư duy có thể quan sát được, điều này đã nhận được cả lời khen ngợi lẫn chỉ trích từ cộng đồng.
Hiệu suất và khả năng tiếp cận
Dòng R1 bao gồm nhiều mô hình được tinh giản từ 1,5B đến 70B tham số, giúp người dùng với các nguồn lực tính toán khác nhau có thể tiếp cận. Kiểm thử từ cộng đồng cho thấy ngay cả các mô hình nhỏ hơn cũng thể hiện khả năng ấn tượng trong các tác vụ cụ thể, mặc dù có một số hạn chế. Các mô hình được phát hành dưới giấy phép MIT, cho phép sử dụng thương mại và sửa đổi, bao gồm cả việc tinh giản để huấn luyện các mô hình LLM khác.
CEO chia sẻ: Trước những công nghệ đột phá, những rào cản do mã nguồn đóng tạo ra chỉ là tạm thời. Ngay cả cách tiếp cận mã nguồn đóng của OpenAI cũng không thể ngăn cản người khác bắt kịp. Vì vậy, chúng tôi đặt giá trị của mình vào đội ngũ - các đồng nghiệp phát triển thông qua quá trình này, tích lũy kinh nghiệm, và hình thành một tổ chức và văn hóa có khả năng đổi mới. Đó chính là rào cản của chúng tôi.
Thông số kỹ thuật mô hình:
- Độ dài ngữ cảnh: 128K
- Tổng số tham số: 671B
- Số tham số được kích hoạt: 37B
Các mô hình tinh gọn hiện có:
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-70B
Thách thức và hạn chế kỹ thuật
Người dùng báo cáo những trải nghiệm khác nhau với các mô hình, đặc biệt là các vấn đề về gọi hàm và đôi khi có hiện tượng ảo giác. Một nhận xét thường xuyên là xu hướng đầu ra tư duy dài dòng của các mô hình, điều mà một số người thấy là quá mức. Giới hạn 64K token đầu vào và 8K token đầu ra cũng được coi là những hạn chế tiềm ẩn so với một số đối thủ thương mại. Tuy nhiên, cộng đồng đã phát triển nhiều giải pháp khác nhau, bao gồm phân đoạn và triển khai RAG.
Tác động đến bức tranh AI
Cách tiếp cận của DeepSeek thể hiện một thách thức đáng kể đối với các công ty lớn trong ngành AI. Bằng cách đạt được kết quả tương đương với chi phí tính toán thấp hơn đáng kể và chia sẻ công nghệ một cách cởi mở, họ đang chứng minh rằng việc phát triển AI hiệu quả không nhất thiết đòi hỏi tài nguyên tính toán khổng lồ. Điều này có thể có những ảnh hưởng sâu rộng đến việc dân chủ hóa công nghệ AI và sự phát triển tương lai của các mô hình suy luận.
Việc ra mắt DeepSeek R1 đánh dấu một cột mốc đáng chú ý trong việc phát triển AI mã nguồn mở, cho thấy khả năng suy luận phức tạp có thể đạt được thông qua các cách tiếp cận sáng tạo thay vì chỉ dựa vào sức mạnh tính toán thuần túy. Mặc dù các mô hình có những hạn chế của chúng, tỷ lệ hiệu suất trên chi phí và tính chất mở của chúng khiến chúng trở thành một đóng góp quan trọng cho lĩnh vực này.