Dự án ANEMLL Tiết lộ Hiệu Suất Không Đồng Đều của Apple Neural Engine trong Suy Luận LLM

BigGo Editorial Team
Dự án ANEMLL Tiết lộ Hiệu Suất Không Đồng Đều của Apple Neural Engine trong Suy Luận LLM

Apple Neural Engine (ANE) từ lâu đã là một thành phần bí ẩn trong các chip Apple Silicon, với tài liệu và khả năng tiếp cận hạn chế cho các nhà phát triển. Dự án mã nguồn mở mới ANEMLL (phát âm là animal) nhằm thay đổi điều đó bằng cách cung cấp các công cụ để chuyển các Mô hình Ngôn ngữ Lớn sang ANE, nhưng các thử nghiệm của cộng đồng cho thấy cả ưu điểm và những hạn chế đáng kể.

Đánh đổi Hiệu Suất: Tốc độ và Hiệu quả Năng lượng

Thử nghiệm từ các thành viên cộng đồng cho thấy trong khi các mô hình được tối ưu hóa cho ANE chạy chậm hơn so với các triển khai trên GPU, chúng lại mang đến hiệu quả năng lượng đáng kinh ngạc. Một người dùng báo cáo rằng trên M4 Pro, mô hình Llama 3.2 1B đạt khoảng 62 token mỗi giây trong khi chỉ tiêu thụ 2,8 watt điện năng. Ngược lại, các triển khai trên GPU có thể nhanh gấp đôi nhưng tiêu thụ khoảng 20 watt—gần như gấp 10 lần điện năng. Hiệu quả này làm cho ANE đặc biệt có giá trị cho các thiết bị di động, nơi thời lượng pin là yếu tố quan trọng.

Tuy nhiên, so sánh trực tiếp giữa ANEMLL và các framework khác như MLX cho thấy khoảng cách hiệu suất đáng kể. Một bài kiểm tra chạy DeepSeek R1-8B trên M4 Max cho thấy ANEMLL chỉ đạt 9,3 token mỗi giây so với 31,33 token mỗi giây của MLX cho phiên bản lượng tử hóa 8-bit. Sự khác biệt về hiệu suất này đặt ra câu hỏi liệu việc tiết kiệm năng lượng có đáng để đánh đổi lấy sự giảm tốc độ trong hầu hết các trường hợp sử dụng hay không.

So sánh hiệu suất: ANEMLL và MLX trên M4 Max

Framework Mô hình Hiệu suất Sử dụng bộ nhớ
ANEMLL DeepSeek R1-8B 9.3 token/giây ~500MB
MLX (8-bit) DeepSeek R1-8B 31.33 token/giây ~8.5GB
MLX (bf16) DeepSeek R1-8B 27.17 token/giây ~15.7GB

So sánh hiệu quả năng lượng

Phần cứng Mô hình Hiệu suất Mức tiêu thụ điện
M1 Max (ANE) Llama 3.2-1B 47 token/giây ~1.8 watt
M4 Pro (ANE) Llama 3.2-1B 62 token/giây ~2.8 watt
Triển khai trên GPU Các mô hình tương tự Nhanh hơn khoảng 2 lần ~20 watt

Hiệu quả Bộ nhớ và Hạn chế Kỹ thuật

Một lợi thế bất ngờ của ANEMLL dường như là hiệu quả sử dụng bộ nhớ. Cùng một bài kiểm tra cho thấy hiệu suất chậm hơn cũng tiết lộ mức sử dụng bộ nhớ thấp hơn đáng kể—khoảng 500MB cho ANEMLL so với 8,5GB cho mô hình 8-bit của MLX. Hiệu quả này có thể làm cho các triển khai ANE đặc biệt có giá trị cho việc chạy các mô hình trên các thiết bị có bộ nhớ hạn chế, như iPhone và iPad.

Những thách thức kỹ thuật khi làm việc với ANE xuất phát từ các ràng buộc phần cứng của nó. Không giống như GPU, ANE yêu cầu các hình dạng đầu vào/đầu ra cố định, khiến các hoạt động động như mở rộng bộ nhớ đệm attention trở nên khó khăn. Nó cũng chỉ hỗ trợ độ chính xác FP16 (không phải BF16), có thể dẫn đến các vấn đề tràn activation. Các nhà phát triển đã phải triển khai các giải pháp sáng tạo, như sử dụng các phép toán conv2d thay vì các lớp tuyến tính và phát triển các phương pháp cửa sổ trượt cho bộ nhớ đệm key-value.

Cách tiếp cận Hệ sinh thái Đóng của Apple

Cuộc thảo luận của cộng đồng cho thấy sự thất vọng với cách tiếp cận của Apple đối với việc tăng tốc AI. Mặc dù các bài nghiên cứu của chính Apple tuyên bố cải thiện hiệu suất đáng kể cho các mô hình được tối ưu hóa cho ANE, công ty đã cung cấp tài liệu và công cụ hạn chế cho các nhà phát triển. Ngay cả framework MLX của Apple cũng không hỗ trợ ANE, đặt ra câu hỏi về chiến lược của công ty.

Một số người bình luận đã so sánh với NPU của Qualcomm trong laptop Snapdragon X, cho rằng các nhà sản xuất phần cứng thường quảng cáo quá mức về khả năng của các đơn vị xử lý neural cho các công việc AI. Thực tế là những chip chuyên dụng này xuất sắc trong các tác vụ cụ thể, hạn chế nhưng có thể không mang lại hiệu suất như đã hứa cho các mô hình lớn mà người dùng thực sự muốn chạy.

Như một thành viên cộng đồng đã lưu ý:

Lợi ích chính là việc sử dụng điện năng thấp hơn đáng kể. Kiểm tra llama3.2-1B trên máy của tôi; M1 Max (47t/s, ~1,8 watt), M4 Pro (62t/s, ~2,8 watt). GPU nhanh hơn gấp đôi (thậm chí nhanh hơn trên Max), nhưng tiêu thụ nhiều điện năng hơn (~20 watt) so với ANE.

Dự án ANEMLL đại diện cho một bước quan trọng hướng tới việc làm cho Apple Neural Engine dễ tiếp cận hơn với các nhà phát triển, nhưng các đặc điểm hiệu suất hiện tại cho thấy nó có thể có giá trị nhất cho các trường hợp sử dụng cụ thể ưu tiên hiệu quả năng lượng hơn tốc độ thuần túy. Khi Apple tiếp tục phát triển phần cứng của mình với các chip dòng M mới hơn, sự cân bằng giữa khả năng của ANE, CPU và GPU có thể thay đổi, tiềm năng làm cho Neural Engine cạnh tranh hơn cho các công việc AI nói chung.

Tham khảo: ANEMLL