FlashMLA của DeepSeek đạt hiệu suất băng thông bộ nhớ 90% trên GPU Hopper

BigGo Editorial Team
FlashMLA của DeepSeek đạt hiệu suất băng thông bộ nhớ 90% trên GPU Hopper

Trong một bước phát triển quan trọng về hiệu quả phục vụ mô hình AI, DeepSeek đã công bố mã nguồn mở FlashMLA, một nhân giải mã MLA (Multi-head Linear Attention) được tối ưu hóa đặc biệt cho GPU Hopper. Sự ra mắt này diễn ra trong bối cảnh ngày càng có nhiều sự quan tâm đến MLA như một giải pháp thay thế cho cơ chế attention truyền thống trong các mô hình ngôn ngữ lớn.

Đột phá về Hiệu suất

FlashMLA thể hiện các chỉ số hiệu suất ấn tượng, đạt tới 3000 GB/s trong các cấu hình giới hạn bộ nhớ và 580 TFLOPS trong các cấu hình giới hạn tính toán trên GPU H800 SXM5. Điều này tương đương với khoảng 90% hiệu suất băng thông bộ nhớ và 60% hiệu suất tính toán, đánh dấu một cải tiến đáng kể trong việc sử dụng GPU cho việc phục vụ mô hình AI.

Thông số kỹ thuật:

  • Hỗ trợ GPU: GPU Hopper ( H800 SXM5 )
  • Hiệu suất bộ nhớ: Lên đến 3000 GB/s
  • Hiệu suất tính toán: Lên đến 580 TFLOPS
  • Hỗ trợ độ chính xác: BF16
  • Bộ nhớ đệm KV: Phân trang với kích thước khối 64
  • Yêu cầu CUDA: 12.3 trở lên
  • Yêu cầu PyTorch: 2.0 trở lên

MLA so với Attention Truyền thống

Các nghiên cứu lý thuyết gần đây đã xác nhận những ưu điểm của MLA so với Group Query Attention (GQA) truyền thống. Theo các thảo luận trong cộng đồng, MLA cung cấp khả năng biểu đạt mạnh mẽ hơn GQA trong khi vẫn duy trì cùng mức độ tiêu tốn bộ nhớ KV Cache. Đáng chú ý, các mô hình được huấn luyện sẵn dựa trên GQA hiện có, bao gồm các mô hình phổ biến như LLaMA, Qwen và Mixtral, có thể được chuyển đổi thành các mô hình dựa trên MLA.

Triển khai và Hạn chế

Hiện tại, FlashMLA hỗ trợ độ chính xác BF16 và triển khai KV cache phân trang với kích thước khối là 64. Mặc dù việc triển khai cho thấy nhiều triển vọng, một số thành viên trong cộng đồng đã lưu ý về những hạn chế đặc thù của nền tảng:

Theo quan điểm của tôi, việc FlashMLA chỉ nhắm đến GPU Hopper hạn chế khả năng sử dụng đa nền tảng của nó, và việc thiếu tài liệu toàn diện, tính tương thích mơ hồ với các framework rộng hơn, cũng như thiếu các so sánh điểm chuẩn hoặc thông tin về sự đánh đổi làm giảm khả năng sử dụng và thích ứng của nó.

Tác động đến Bối cảnh Phục vụ AI

Sự ra mắt này đã khơi dậy các cuộc thảo luận về tác động tiềm năng của nó đối với các framework phục vụ AI hiện có như vLLM và SGLang. Cộng đồng ghi nhận rằng vLLM đã triển khai hỗ trợ MLA cho các mô hình DeepSeek, báo cáo những cải thiện đáng kể trong thông lượng tạo và dung lượng bộ nhớ token. Bối cảnh cạnh tranh này tiếp tục thúc đẩy đổi mới trong hiệu quả phục vụ mô hình AI.

Ý nghĩa Tương lai

Như một phần trong chiến lược phát hành cơ sở hạ tầng lớn hơn, DeepSeek dự định công bố mã nguồn mở cho các kho lưu trữ liên quan đến cơ sở hạ tầng bổ sung. Cộng đồng kỳ vọng rằng những phát hành này, kết hợp với FlashMLA, có thể ảnh hưởng đáng kể đến hướng đi của việc tối ưu hóa phục vụ mô hình AI, đặc biệt là trong việc giải quyết các thách thức về băng thông bộ nhớ và hiệu quả tính toán trong các triển khai quy mô lớn.

Tham khảo: FlashMLA