Trong một bước tiến quan trọng cho cộng đồng phát triển AI, DeepSeek đã phát hành DeepEP, một thư viện giao tiếp song song chuyên gia hiệu quả được thiết kế cho các mô hình Mixture-of-Experts (MoE). Việc phát hành đã tạo ra sự phấn khích đáng kể trong giới phát triển và nghiên cứu, đặc biệt là nhờ tính chất mã nguồn mở và các kỹ thuật tối ưu hóa tiên tiến.
Kiến trúc Giao tiếp Tiên tiến
DeepEP giới thiệu các kernel giao tiếp GPU all-to-all tinh vi, hỗ trợ cả hoạt động nội nút và liên nút thông qua công nghệ NVLink và RDMA. Thư viện đạt được các chỉ số hiệu suất ấn tượng, với các hoạt động nội nút đạt băng thông lên đến 158 GB/s thông qua NVLink, trong khi giao tiếp liên nút duy trì hiệu suất ổn định khoảng 40-46 GB/s qua RDMA.
Ghi chú kỹ thuật: RDMA (Remote Direct Memory Access) cho phép truy cập bộ nhớ trực tiếp từ máy tính này sang máy tính khác mà không cần thông qua hệ điều hành, cho phép mạng có thông lượng cao và độ trễ thấp.
Điểm nổi bật về hiệu suất:
- Trong cùng node (NVLink): Băng thông lên đến 158 GB/s
- Giữa các node (RDMA): Băng thông 39-46 GB/s
- Các hoạt động độ trễ thấp: 163-194 μs cho việc phân phối, 318-369 μs cho việc kết hợp
- Mở rộng hiệu quả từ 8 đến 256 chuyên gia
Yêu cầu:
- GPU Hopper
- Python 3.8+
- CUDA 12.3+
- PyTorch 2.1+
- NVLink cho giao tiếp trong cùng node
- Mạng RDMA cho giao tiếp giữa các node
Tối ưu hóa PTX Sáng tạo
Một trong những khía cạnh được thảo luận nhiều nhất của bản phát hành là việc sử dụng các lệnh PTX tiên tiến. Thư viện triển khai một lệnh PTX đặc biệt nằm ngoài tài liệu (ld.global.nc1::no_allocate.L2::256B) mà, mặc dù về mặt kỹ thuật là hành vi không xác định, đã được kiểm tra kỹ lưỡng về tính chính xác trên kiến trúc Hopper. Việc tối ưu hóa này đã thu hút sự quan tâm đặc biệt từ cộng đồng kỹ thuật, với các nhà phát triển lưu ý về tác động tiềm năng của nó đối với hiệu suất.
Tôi cảm thấy như một đứa trẻ trong cửa hàng kẹo. Một số thủ thuật này sẽ mất quá nhiều thời gian để dịch ngược một cách chính xác dựa trên các bài báo.
Tác động đến Cộng đồng và Triết lý Mã nguồn Mở
Bản phát hành đã kích thích các cuộc thảo luận về tình trạng phát triển AI mã nguồn mở, với nhiều thành viên cộng đồng đưa ra những so sánh thuận lợi giữa cách tiếp cận của DeepSeek và các công ty AI khác. Tài liệu toàn diện, bao gồm các số liệu hiệu suất chi tiết và ví dụ triển khai, thể hiện cam kết phát triển minh bạch và hợp tác đã gây tiếng vang mạnh mẽ trong cộng đồng phát triển.
Việc phát hành thư viện đại diện cho một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI tiên tiến, có khả năng giúp nhiều nhà nghiên cứu và phát triển làm việc hiệu quả hơn với các mô hình MoE. Với hỗ trợ cho các hoạt động FP8 và kiểm soát tài nguyên GPU linh hoạt, DeepEP cung cấp một nền tảng vững chắc cho việc phát triển và tối ưu hóa mô hình AI trong tương lai.
Tham khảo: DeepEP: an efficient expert-parallel communication library