Trong một bối cảnh mà GPU của NVIDIA thống trị các tác vụ AI, chip Apple Silicon đang tạo ra một vị trí riêng như một giải pháp thay thế tiết kiệm năng lượng để chạy các mô hình ngôn ngữ lớn cục bộ. Khi các nhà phát triển khám phá khả năng của MLX, framework học máy của Apple được tối ưu hóa cho silicon tùy chỉnh của họ, người dùng đang báo cáo các chỉ số hiệu suất ấn tượng, làm nổi bật tiềm năng của những hệ thống này cho các ứng dụng AI.
Framework MLX ngày càng được chú ý
MLX, framework học máy của Apple được thiết kế đặc biệt cho Apple Silicon, đã dần nhận được sự chú ý trong cộng đồng phát triển mặc dù mới chỉ hơn một năm tuổi. Tương tự như NumPy và PyTorch nhưng dành riêng cho Apple Silicon, MLX cung cấp nền tảng để chạy các mô hình AI khác nhau cục bộ trên các thiết bị Mac. Framework này cho phép người dùng chạy các LLM (Mô hình Ngôn ngữ Lớn), mô hình thị giác, và ngày càng nhiều mô hình âm thanh mà không cần phần cứng GPU chuyên dụng đắt tiền. Các thành viên cộng đồng đã lưu ý rằng hoạt động hệ sinh thái xung quanh MLX rất ấn tượng, với các công cụ như mlx-lm nổi lên như các phiên bản tương đương của llama.cpp được xây dựng đặc biệt cho kiến trúc của Apple.
Chỉ số hiệu suất cho thấy tiềm năng
Báo cáo hiệu suất từ các thành viên cộng đồng nhấn mạnh hiệu quả của Apple Silicon khi chạy các LLM. Một người dùng chạy DeepSeek-R1-Distill-Llama-70B lượng tử hóa 4-bit trên MacBook Pro M4 Max đã báo cáo đạt được 10,2 token mỗi giây khi cắm điện và 4,2 token mỗi giây khi chạy bằng pin. Đối với mô hình Gemma-3-27B-IT-QAT nhỏ hơn, cùng một hệ thống đạt 26,37 token mỗi giây khi cắm điện và 9,7 token mỗi giây ở chế độ tiết kiệm pin. Những chỉ số này cho thấy các máy Mac hiện đại có thể chạy các mô hình AI đáng kể với hiệu suất hợp lý, làm cho các khả năng trước đây chỉ có trên máy chủ giờ đây có thể truy cập trên phần cứng tiêu dùng.
Chỉ số hiệu suất trên Apple Silicon
Model | Thiết bị | Chế độ nguồn | Hiệu suất |
---|---|---|---|
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | Cắm điện | 10.2 token/giây |
DeepSeek-R1-Distill-Llama-70B (4-bit) | MacBook Pro M4 Max | Pin/Tiết kiệm điện | 4.2 token/giây |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | Cắm điện | 26.37 token/giây |
Gemma-3-27B-IT-QAT (4-bit) | MacBook Pro M4 Max | Pin/Tiết kiệm điện | 9.7 token/giây |
So sánh hiệu suất năng lượng
Phần cứng | Điểm OpenCL Benchmark | Mức tiêu thụ điện năng |
---|---|---|
NVIDIA GeForce RTX 5090 | 376,224 | 400-550W (GPU) + 250-500W (hệ thống) |
Apple M3 Ultra | 131,247 | ~200W (toàn bộ hệ thống) |
So sánh hiệu quả năng lượng
Khi so sánh hiệu quả năng lượng giữa Apple Silicon và GPU NVIDIA, các cuộc thảo luận cộng đồng cho thấy Apple có thể có lợi thế về hiệu suất trên mỗi watt. Trong khi card cao cấp của NVIDIA như RTX 5090 đạt hiệu suất thô cao hơn (đạt 376.224 trong các bài kiểm tra OpenCL so với 131.247 của M3 Ultra), chúng tiêu thụ nhiều điện năng hơn đáng kể—khoảng 400-550W chỉ riêng GPU cộng thêm yêu cầu điện năng hệ thống bổ sung. Ngược lại, M3 Ultra hoạt động ở mức khoảng 200W tổng điện năng hệ thống, có khả năng làm cho nó hiệu quả năng lượng hơn cho một số tác vụ AI nhất định mặc dù hiệu suất tuyệt đối thấp hơn.
Thách thức về trải nghiệm người dùng
Mặc dù có lợi ích về hiệu suất, việc quản lý các phụ thuộc Python vẫn là một điểm đau đáng kể đối với nhiều người dùng khi cố gắng chạy các ứng dụng dựa trên MLX. Nhiều người bình luận đã mô tả những trải nghiệm đáng thất vọng với việc thiết lập môi trường Python, làm nổi bật một rào cản phổ biến đối với những người không phải là nhà phát triển Python, những người chỉ đơn giản muốn chạy các ứng dụng được viết bằng Python. Trải nghiệm của một người dùng đã cải thiện bằng cách chỉ định phiên bản Python 3.12 với tham số lệnh -p 3.12
, cho thấy rằng MLX có thể có các binary wheel chỉ dành cho các phiên bản Python cụ thể.
Python nằm trong danh mục những thứ bạn không thể chỉ sử dụng mà không phải là chuyên gia về các chi tiết nhỏ. Điều này đáng tiếc vì có rất nhiều người không phải là nhà phát triển Python nhưng muốn chạy các chương trình tình cờ được viết bằng Python.
Ứng dụng thực tế
Người dùng báo cáo đã thành công sử dụng các mô hình khác nhau thông qua MLX cho các tác vụ đa dạng. Các mô hình phổ biến bao gồm Mistral Small 3.1 (yêu cầu khoảng 20GB RAM), Gemma3:12B cho các tác vụ chung như tạo câu chuyện và lập trình nhẹ, Qwen2.5-coder:32B để hỗ trợ lập trình, và mô hình Qwen2.5:0.5B nhỏ đáng ngạc nhiên về khả năng. Dự án hướng dẫn tiny-llm được nhấn mạnh trong bài viết gốc nhằm giúp các nhà phát triển hiểu các kỹ thuật đằng sau việc phục vụ hiệu quả các mô hình LLM, đặc biệt tập trung vào các mô hình Qwen2, bằng cách xây dựng cơ sở hạ tầng phục vụ mô hình từ đầu sử dụng API mảng/ma trận của MLX.
Khi khả năng của phần cứng tiêu dùng tiếp tục cải thiện và các framework như MLX trưởng thành, chúng ta đang chứng kiến sự dân chủ hóa công nghệ AI vốn trước đây chỉ giới hạn trong các trung tâm dữ liệu chuyên biệt. Mặc dù vẫn còn những thách thức, đặc biệt là về phụ thuộc phần mềm và quy trình phát triển, Apple Silicon đang nổi lên như một nền tảng hấp dẫn cho những người đam mê AI và các chuyên gia muốn chạy các mô hình phức tạp cục bộ với hiệu suất hợp lý và hiệu quả năng lượng tuyệt vời.
Tham khảo: tiny-llm - LLM Serving in a Week