Các nhà nghiên cứu của Apple vừa công bố FastVLM, một mô hình ngôn ngữ thị giác đột phá được thiết kế để xử lý hiệu quả trên thiết bị, làm dấy lên những cuộc thảo luận sôi nổi giữa các nhà phát triển và những người ủng hộ khả năng tiếp cận. Nghiên cứu này, dự kiến sẽ được trình bày tại CVPR 2025, giới thiệu một bộ mã hóa thị giác lai mới giúp giảm đáng kể thời gian xử lý trong khi vẫn duy trì hiệu suất cao.
![]() |
---|
Tổng quan về kho lưu trữ GitHub của FastVLM, thể hiện giao diện rõ ràng và nội dung kỹ thuật liên quan đến các nhà phát triển và nhà nghiên cứu |
Cải tiến tốc độ mang tính cách mạng cho AI thị giác
Thành tựu đáng chú ý nhất của FastVLM là cải thiện tốc độ đáng kinh ngạc, với phiên bản nhỏ nhất mang lại thời gian phản hồi token đầu tiên (TTFT) nhanh hơn 85 lần so với các giải pháp hiện có như LLAVA-OneVision-0.5B. Việc giảm độ trễ đáng kể này đại diện cho một ngưỡng quan trọng cho các ứng dụng thực tế của AI thị giác trong các thiết bị hàng ngày. Khả năng xử lý nhanh thông tin hình ảnh của công nghệ này giải quyết một trong những điểm nghẽn lớn nhất trong các mô hình ngôn ngữ thị giác hiện tại, có khả năng cho phép các trợ lý AI thực sự phản hồi nhanh có thể nhìn và diễn giải thế giới gần như theo thời gian thực.
Với điều đó, một công cụ hỗ trợ thực sự hữu ích cho người khiếm thị có thể được tạo ra, chạy ngay trên điện thoại của họ, được cung cấp từ camera trong kính mắt. Những người không thể di chuyển mà không có người hỗ trợ có thể trở nên tự chủ trong cuộc sống hàng ngày.
Các biến thể của mô hình FastVLM
Mô hình | Tham số | Hiệu suất đáng chú ý |
---|---|---|
FastVLM-0.5B | 0,5 tỷ | Nhanh hơn 85 lần về TTFT so với LLAVA-OneVision-0.5B, bộ mã hóa hình ảnh nhỏ hơn 3,4 lần |
FastVLM-1.5B | 1,5 tỷ | Có sẵn trong các biến thể Giai đoạn 2 và Giai đoạn 3 |
FastVLM-7B | 7 tỷ | Sử dụng Qwen2-7B LLM, hiệu suất vượt trội hơn Cambrian-1-8B với tốc độ TTFT nhanh hơn 7,9 lần |
Tất cả các mô hình đều có sẵn ở định dạng tương thích với Apple Silicon để suy luận trên thiết bị.
Chiến lược xử lý trên thiết bị ngày càng được ưa chuộng
Nghiên cứu này phù hợp với điều mà nhiều người trong cộng đồng coi là chiến lược AI dài hạn của Apple: ưu tiên xử lý trên thiết bị để cải thiện quyền riêng tư, giảm chi phí và giảm độ trễ. Thiết kế hiệu quả của FastVLM cho phép nó chạy trực tiếp trên Apple Silicon, với kho lưu trữ cung cấp hướng dẫn để xuất các mô hình sang các định dạng tương thích với iPhone, iPad và Mac. Cách tiếp cận này trái ngược với các hệ thống AI phụ thuộc vào đám mây đòi hỏi kết nối internet liên tục và làm dấy lên lo ngại về quyền riêng tư khi xử lý dữ liệu hình ảnh nhạy cảm.
Mặc dù một số người bình luận bày tỏ sự thất vọng rằng việc triển khai sử dụng PyTorch thay vì framework MLX của Apple, phản ứng tổng thể đối với công nghệ này đã vô cùng tích cực, với các nhà phát triển đã lên kế hoạch đưa nó vào các ứng dụng từ công cụ hỗ trợ tiếp cận đến các tiện ích phân tích màn hình.
Tiềm năng chuyển đổi cho khả năng tiếp cận
Có lẽ những cuộc thảo luận gây xúc động nhất xung quanh FastVLM tập trung vào tiềm năng của nó trong việc chuyển đổi khả năng tiếp cận cho những người khiếm thị. Các thành viên cộng đồng, bao gồm cả phụ huynh của những đứa trẻ khiếm thị, bày tỏ hy vọng sâu sắc về cách công nghệ này có thể mang lại sự độc lập và những cơ hội mới. Khả năng xử lý thông tin hình ảnh nhanh chóng trên thiết bị cá nhân có thể cho phép các công nghệ hỗ trợ mô tả môi trường xung quanh, nhận diện vật thể và giúp điều hướng môi trường mà không cần thiết bị chuyên dụng hoặc kết nối internet liên tục.
Nhóm nghiên cứu đã cung cấp nhiều kích thước mô hình khác nhau, từ phiên bản nhẹ 0.5B tham số đến các biến thể 7B tham số mạnh mẽ hơn, cho phép các nhà phát triển cân bằng hiệu suất với các hạn chế của thiết bị. Kho lưu trữ bao gồm hướng dẫn chi tiết cho cả suy luận và tinh chỉnh, có khả năng đẩy nhanh việc áp dụng trên nhiều loại ứng dụng.
Khi thị giác ngày càng trở nên quan trọng đối với các hệ thống AI, cách tiếp cận mã hóa hiệu quả của FastVLM có thể chứng minh là một bước tiến quan trọng trong việc đưa khả năng hiểu thị giác tinh vi đến các thiết bị hàng ngày. Với phần cứng xử lý thần kinh của Apple đã được triển khai trên hàng triệu thiết bị, sân khấu dường như đã được thiết lập cho một thế hệ mới các ứng dụng AI thị giác đáp ứng nhanh, bảo vệ quyền riêng tư.
Tham khảo: FastVLM: Efficient Vision Encoding for Vision Language Models