Trong thế giới phát triển AI đang phát triển nhanh chóng, DeepSeek gần đây đã công bố cách tiếp cận của họ về việc mở mã nguồn các thành phần của công cụ suy luận (inference engine), làm dấy lên cuộc thảo luận đáng kể trong cộng đồng công nghệ. Thay vì phát hành toàn bộ mã nguồn, vốn phải đối mặt với nhiều thách thức thực tế, công ty đã lựa chọn một đóng góp chiến lược hơn cho hệ sinh thái mã nguồn mở.
Khoảng cách hiệu suất cho thấy tiềm năng tối ưu hóa đáng kể
Cộng đồng đã xác định một khoảng cách hiệu suất đáng kể giữa các công cụ suy luận có sẵn công khai và hệ thống nội bộ của DeepSeek. Theo nhận xét từ người dùng quen thuộc với các tiêu chuẩn đánh giá, vLLM (một công cụ suy luận mã nguồn mở) đạt khoảng 5.000 token tổng cộng mỗi giây với bộ dữ liệu sharegpt và 12.000 token mỗi giây với cấu hình ngẫu nhiên 2000/100 dưới điều kiện đồng thời cao. Ngược lại, hệ thống nội bộ của DeepSeek được báo cáo cung cấp khoảng 73.700 token mỗi giây trong quá trình prefilling và 14.800 token mỗi giây trong quá trình giải mã trên một nút H800 đơn lẻ. Sự khác biệt đáng kể này cho thấy có rất nhiều không gian cải thiện trong lĩnh vực suy luận mã nguồn mở.
So sánh Hiệu suất: vLLM và DeepSeek Internal Engine
Hệ thống | Cấu hình | Hiệu suất |
---|---|---|
vLLM | bộ dữ liệu sharegpt, độ đồng thời cao | ~5.000 token/giây |
vLLM | ngẫu nhiên 2000/100, độ đồng thời cao | ~12.000 token/giây |
DeepSeek Internal | node H800, prefilling | ~73.700 token/giây đầu vào |
DeepSeek Internal | node H800, giải mã | ~14.800 token/giây đầu ra |
Thách thức Mã nguồn Mở của DeepSeek
- Sự phân kỳ mã nguồn: Dựa trên bản fork vLLM cũ một năm với tùy chỉnh nặng
- Phụ thuộc hạ tầng: Gắn kết chặt chẽ với hệ thống nội bộ
- Băng thông bảo trì hạn chế: Đội nghiên cứu nhỏ tập trung vào phát triển mô hình
Chiến lược Đóng góp của DeepSeek
- Trích xuất tính năng độc lập thành các thư viện riêng biệt
- Chia sẻ kỹ thuật tối ưu hóa và chi tiết triển khai
- Hợp tác với các dự án mã nguồn mở hiện có
Thách thức của việc duy trì mã nguồn đã được phân nhánh
Nhiều nhà phát triển trong cộng đồng bày tỏ sự đồng cảm với lời giải thích của DeepSeek về sự phân kỳ của mã nguồn. Công cụ suy luận của công ty dựa trên một nhánh ban đầu của vLLM từ hơn một năm trước, và kể từ đó đã được tùy chỉnh nhiều cho các mô hình cụ thể của họ. Tình huống này đồng cảm với nhiều kỹ sư phần mềm đã trải qua những thách thức tương tự với việc duy trì các nhánh phân tách quá xa khỏi mã nguồn gốc của chúng. Nợ kỹ thuật tích lũy thông qua việc tùy chỉnh mở rộng làm cho việc kết hợp các cải tiến từ cộng đồng hoặc duy trì mã cho các trường hợp sử dụng rộng hơn ngày càng khó khăn.
Tôi đã từng ở vị trí đó. Có lẽ một số người trong chúng ta cũng vậy... Cách tiếp cận của họ trong việc tách ra các thư viện con có thể bảo trì và chia sẻ thông tin trực tiếp ngay cả khi không tích hợp dường như là một cách rất tốt để làm việc với cộng đồng.
Logic thương mại đằng sau AI mã nguồn mở
Một chủ đề thú vị trong cuộc thảo luận tập trung vào lý do tại sao các công ty AI thương mại chia sẻ nghiên cứu và công nghệ của họ ngay từ đầu. Một số thành viên cộng đồng đã đưa ra những hiểu biết sâu sắc về logic kinh doanh thúc đẩy hành vi dường như trái ngược này. Động lực dường như đa dạng: thu hút nhân tài hàng đầu muốn công việc của họ được công bố, thiết lập tầm ảnh hưởng trong ngành, định vị công nghệ như một tiêu chuẩn, và đẩy nhanh sự tiến bộ trên toàn lĩnh vực cuối cùng có lợi cho tất cả người tham gia.
Một số người bình luận lưu ý rằng trong các lĩnh vực phát triển nhanh như AI, việc gần gũi với tiến bộ đang diễn ra trong toàn bộ hệ sinh thái có thể có giá trị hơn việc giữ bí mật đổi mới. Quan điểm này khung các đóng góp mã nguồn mở không phải là hành động vị tha mà là quyết định kinh doanh chiến lược theo đuổi lợi ích kinh tế thông qua lợi ích chung và tăng trưởng hệ sinh thái.
Giá trị thực tế của việc chia sẻ kiến thức so với mã
Một quan điểm thú vị đã xuất hiện liên quan đến giá trị của việc chia sẻ kiến thức ngay cả khi mã hoàn chỉnh, có thể chạy không có sẵn. Một số nhà phát triển chỉ ra rằng mã không chạy được hoặc mô tả kỹ thuật có thể cực kỳ có giá trị để hiểu chi tiết triển khai mà chỉ có các bài báo không thể truyền đạt đầy đủ. Điều này cho thấy cách tiếp cận của DeepSeek trong việc chia sẻ các tối ưu hóa và cải tiến thiết kế, ngay cả khi không ở dạng công cụ suy luận hoàn chỉnh, vẫn có thể mang lại lợi ích đáng kể cho cộng đồng.
Tóm lại, quyết định của DeepSeek thể hiện một cách tiếp cận thực tế đối với đóng góp mã nguồn mở, công nhận cả giá trị của việc chia sẻ đổi mới và những thách thức thực tế của việc duy trì mã nguồn phức tạp. Khi phát triển AI tiếp tục tăng tốc, việc tìm ra các mô hình bền vững cho việc chia sẻ kiến thức có lợi cho cả công ty và cộng đồng rộng lớn hơn sẽ vẫn rất quan trọng. Sự đón nhận tích cực đối với tính minh bạch của DeepSeek về những thách thức này cho thấy cộng đồng công nghệ đánh giá cao sự giao tiếp trung thực về thực tế của việc bảo trì mã nguồn mở cũng như các đóng góp của họ.
Tham khảo: Con đường để mở mã nguồn công cụ suy luận DeepSeek