DeepSeek đã phát hành Hệ thống tập tin Fire-Flyer (3FS), một hệ thống tập tin phân tán hiệu năng cao được thiết kế đặc biệt cho các khối lượng công việc đào tạo và suy luận AI. Hệ thống này đã được phát triển từ năm 2019, ban đầu được tạo ra cho các ứng dụng giao dịch tần số cao, và hiện đã được tối ưu hóa cho các mẫu truy cập dữ liệu độc đáo của việc đào tạo AI quy mô lớn.
Hiệu suất đặc biệt cho khối lượng công việc đọc ngẫu nhiên
3FS đạt hiệu suất đáng chú ý, với các bài kiểm tra chuẩn cho thấy thông lượng đọc khoảng 6,6 TiB/s trên một cụm gồm 180 nút lưu trữ. Mức hiệu suất này vượt xa các hệ thống tập tin phân tán truyền thống như Ceph, gần đây đã kỷ niệm việc đạt 1 TiB/s. Hệ thống được thiết kế đặc biệt cho các mẫu đọc ngẫu nhiên phổ biến trong khối lượng công việc đào tạo AI, nơi các cơ chế bộ nhớ đệm truyền thống mang lại ít lợi ích.
Đối với những ai quan tâm, thiết kế ban đầu đã được công bố tại đây... Hệ thống tập tin này đã được họ phát triển và sử dụng trong nhiều năm. So với các hệ thống tập tin truyền thống, nó tập trung hơn vào việc đào tạo mô hình có nhiều thao tác đọc ngẫu nhiên. Bộ nhớ đệm đọc và tải trước là vô dụng trong trường hợp này.
Điều làm cho 3FS độc đáo là việc cố tình bỏ qua bộ nhớ đệm đọc và tải trước—các tính năng là trụ cột trong hệ thống tập tin thông thường nhưng không mang lại lợi thế cho khối lượng công việc đào tạo AI, nơi dữ liệu hiếm khi được tái sử dụng trong thời gian ngắn. Thay vào đó, 3FS sử dụng các giao diện AIO và io_uring dựa trên Linux với chế độ Direct I/O, bỏ qua hoàn toàn bộ nhớ đệm tập tin để ngăn chặn tiêu thụ bộ nhớ không cần thiết.
![]() |
---|
Các chỉ số hiệu suất cho thấy khả năng đọc ngẫu nhiên vượt trội của Hệ thống Tệp Fire-Flyer |
Kiến trúc và triển khai kỹ thuật
Hệ thống sử dụng kiến trúc phân tách kết hợp thông lượng của hàng nghìn SSD với băng thông mạng của hàng trăm nút lưu trữ. Nó triển khai Chain Replication with Apportioned Queries (CRAQ) để đảm bảo tính nhất quán mạnh mẽ và sử dụng dịch vụ metadata phi trạng thái được hỗ trợ bởi một kho lưu trữ key-value giao dịch.
Mặc dù 3FS sử dụng FUSE để quản lý metadata, việc đạt hiệu suất cao đòi hỏi các ứng dụng phải liên kết trực tiếp với thư viện khách C++ để đọc và ghi. Lựa chọn thiết kế này đã làm dấy lên một số thảo luận trong cộng đồng về việc liệu điều này có hạn chế tiện ích chung của nó hay không, mặc dù các ràng buộc Python có sẵn để cải thiện khả năng tiếp cận.
Cụm benchmark đạt thông lượng 6,6 TiB/s bao gồm 180 nút lưu trữ, mỗi nút được trang bị 2x200Gbps InfiniBand NICs và mười sáu SSD NVMe 14TiB, với khoảng 500+ nút khách hàng cho bài kiểm tra tải đọc. Cấu hình này chứng minh khả năng mở rộng hiệu quả của hệ thống trên các cụm lớn.
Điểm nổi bật về hiệu suất của 3FS:
- Thông lượng đỉnh: 6,6 TiB/giây cho đọc dữ liệu trên 180 nút lưu trữ
- Cấu hình nút: Mỗi nút lưu trữ được trang bị 2 card mạng InfiniBand 200Gbps và mười sáu ổ SSD NVMe 14TiB
- Hiệu suất GraySort: Sắp xếp 110,5 TiB dữ liệu trong 30 phút 14 giây (3,66 TiB/phút)
- Hiệu suất KVCache: Thông lượng đọc đỉnh lên đến 40 GiB/giây
So sánh với Ceph:
- 3FS: 180 nút, 2 card mạng InfiniBand 200Gbps, 16 ổ SSD NVMe 14TiB mỗi nút, khoảng 500 máy khách, thông lượng đọc 6,6 TiB/giây
- Ceph: 68 nút, 2 card mạng Mellanox 100Gbps, 10 ổ SSD NVMe 14TiB mỗi nút, 504 máy khách, thông lượng đọc ngẫu nhiên 1 TiB/giây
![]() |
---|
Số liệu thông lượng máy chủ minh họa khả năng mở rộng và hiệu suất hiệu quả của kiến trúc phân tách trong 3FS |
Vị trí giữa các đối thủ cạnh tranh
Các cuộc thảo luận cộng đồng nhấn mạnh rằng 3FS tham gia vào một lĩnh vực bị thống trị bởi các giải pháp đã được thiết lập như Lustre và các tùy chọn mới hơn như Weka cho lưu trữ phân tán hiệu suất cao. Các hệ thống lưu trữ đối tượng truyền thống như MinIO, Ceph và SeaweedFS thường được coi là quá chậm đối với nhu cầu thông lượng cực cao của việc đào tạo AI quy mô lớn.
Lustre vẫn là hệ thống tập tin song song phân tán hàng đầu nhưng nổi tiếng khó thiết lập và vận hành. 3FS nhằm mục đích cung cấp hiệu suất tương đương hoặc tốt hơn với kiến trúc hiện đại, dễ quản lý hơn. Thông lượng 6,6 TiB/s của hệ thống vượt xa cột mốc 1 TiB/s được kỷ niệm gần đây của Ceph, đạt được với một cụm nhỏ hơn gồm 68 nút.
Ngoài đào tạo: KVCache cho suy luận
Ngoài truy cập dữ liệu đào tạo, 3FS còn cung cấp chức năng KVCache, tối ưu hóa suy luận LLM bằng cách lưu trữ các vector khóa và giá trị từ các token trước đó trong các lớp giải mã. Tính năng này giúp tránh các phép tính dư thừa trong quá trình suy luận, với kết quả benchmark cho thấy thông lượng đọc đỉnh đạt tới 40 GiB/s.
Khả năng này dường như là một phần trong chiến lược của DeepSeek cho dịch vụ suy luận tiết kiệm chi phí, có thể giải thích cách họ có thể cung cấp giá cạnh tranh khi có bộ nhớ đệm prompt.
Việc phát hành 3FS bổ sung vào danh mục các công cụ cơ sở hạ tầng ngày càng tăng của DeepSeek, sau khi họ gần đây công bố các thành phần khác của hệ thống AI. Như một người bình luận đã lưu ý, nền tảng của công ty trong giao dịch tần số cao, nơi hiệu suất được đo bằng nano giây chứ không phải mili giây, có thể đã ảnh hưởng đến cách tiếp cận của họ trong việc xây dựng cơ sở hạ tầng AI hiệu suất cao.
Đối với các tổ chức đang gặp khó khăn với chi phí cao và hạn chế hiệu suất của các giải pháp hiện có như AWS EFS, 3FS có thể đại diện cho một giải pháp thay thế đầy hứa hẹn, mặc dù bản chất chuyên biệt của nó có nghĩa là nó phù hợp nhất cho các khối lượng công việc AI cụ thể hơn là nhu cầu lưu trữ cho mục đích chung.
Tham khảo: Fire-Flyer File System