Khi các mô hình ngôn ngữ lớn tiếp tục phát triển về quy mô và độ phức tạp, thách thức trong việc quản lý chi phí suy luận và hiệu quả truy cập bộ nhớ ngày càng trở nên quan trọng. Đội ngũ Douyin của ByteDance đã phát triển một giải pháp đột phá có thể cách mạng hóa cách tiếp cận những thách thức này trong kiến trúc mô hình AI.
Cách tiếp cận mới cho kiến trúc mô hình thưa
UltraMem, đổi mới mới nhất trong kiến trúc AI của ByteDance, thể hiện một bước đột phá quan trọng trong việc giải quyết các hạn chế về truy cập bộ nhớ của hệ thống Mixture of Experts ( MoE ) hiện tại. Kiến trúc mới này đã được chấp nhận để trình bày tại ICLR 2025, đánh dấu sự công nhận của cộng đồng học thuật. Hệ thống cho thấy những cải tiến đáng kể về cả hiệu suất và hiệu quả, đạt tốc độ suy luận nhanh hơn 2-6 lần so với kiến trúc MoE truyền thống đồng thời giảm chi phí suy luận tới 83%.
Cải thiện hiệu suất:
- Tốc độ suy luận: nhanh hơn 2-6 lần so với MoE
- Giảm chi phí: Giảm tới 83% chi phí suy luận
- Các kích thước mô hình đã thử nghiệm: 151M, 680M, 1.6B tham số
Những đổi mới về mặt kỹ thuật
Kiến trúc này giới thiệu ba cải tiến chính so với các hệ thống hiện có. Thứ nhất, nó triển khai nhiều lớp bộ nhớ nhỏ phân tán trong các lớp Transformer, thay thế lớp bộ nhớ lớn đơn lẻ được tìm thấy trong thiết kế Product Key Memory ( PKM ) truyền thống. Thứ hai, nó sử dụng phương pháp truy xuất giá trị tinh vi hơn gọi là Tucker Decomposed Query-Key Retrieval ( TDQKR ), giúp nâng cao độ phức tạp và hiệu quả của việc chấm điểm giá trị. Cuối cùng, nó giới thiệu Implicit Value Expansion ( IVE ), cho phép mở rộng bộ nhớ ảo mà không cần tăng tỷ lệ yêu cầu bộ nhớ vật lý.
Các Tính Năng Kỹ Thuật Chính:
- Nhiều lớp bộ nhớ phân tán
- Truy xuất Khóa-Truy vấn sử dụng Phân rã Tucker ( TDQKR )
- Mở rộng Giá trị Ngầm định ( IVE )
- Hỗ trợ lên đến 20 triệu giá trị
Hiệu suất và khả năng mở rộng
Trong quá trình thử nghiệm rộng rãi trên các mô hình từ 151 triệu đến 1,6 tỷ tham số, UltraMem đã cho thấy hiệu suất vượt trội so với cả kiến trúc MoE và PKM. Đặc biệt ấn tượng là khả năng duy trì thời gian suy luận ổn định ngay cả khi các tham số thưa tăng lên - một lợi thế đáng kể so với các mô hình MoE, thường cho thấy sự chậm lại rõ rệt khi tham số tăng. Kiến trúc này đã được thử nghiệm thành công với các mô hình chứa tới 20 triệu giá trị, mở đường cho khả năng mở rộng lên hàng tỷ giá trị hoặc chuyên gia.
Ý nghĩa thực tiễn
Đối với ngành công nghiệp AI, thành tựu của UltraMem thể hiện một bước tiến quan trọng trong việc làm cho các mô hình ngôn ngữ lớn trở nên thực tế hơn cho các ứng dụng thực tế. Việc giảm mạnh chi phí suy luận và cải thiện hiệu quả bộ nhớ có thể giúp các mô hình AI tiên tiến trở nên dễ tiếp cận và khả thi hơn về mặt kinh tế cho nhiều ứng dụng và tổ chức. Sự phát triển này đến vào thời điểm quan trọng khi ngành công nghiệp đang phải đối mặt với nhu cầu tính toán ngày càng tăng của các mô hình AI ngày càng tinh vi.
![]() |
---|
Những tiến bộ của UltraMem có thể giúp các mô hình ngôn ngữ lớn trở nên dễ tiếp cận hơn về mặt kinh tế cho nhiều ứng dụng khác nhau, như được thể hiện qua dữ liệu hiệu suất được trình bày |