Việc phát hành hỗ trợ Llama 3.2 Vision trên Ollama gần đây đánh dấu một cột mốc kỹ thuật quan trọng, nhưng các cuộc thảo luận từ cộng đồng cho thấy cả độ phức tạp về mặt kỹ thuật đằng sau việc triển khai này và nhiều cân nhắc thực tế cho người dùng.
Cải tổ kỹ thuật lớn
Việc triển khai Llama 3.2 Vision trong Ollama đòi hỏi những thay đổi đáng kể về kiến trúc. Đội ngũ phát triển đã viết lại phần lớn mã nguồn, chuyển từ C++ sang Golang cho các thành phần chính. Điều này bao gồm các quy trình xử lý hình ảnh mới, bộ mã hóa hình ảnh, và cơ chế chú ý chéo (cross-attention), cùng với việc thiết kế lại hoàn toàn bộ lập lịch mô hình.
Đây là một nỗ lực rất lớn của chúng tôi để hoàn thành, đó là lý do tại sao phải mất một thời gian. Ngoài việc viết các quy trình xử lý hình ảnh mới, bộ mã hóa hình ảnh và thực hiện chú ý chéo, chúng tôi cũng đã thiết kế lại cách các mô hình được chạy bởi bộ lập lịch. Nguồn
Hiệu năng và yêu cầu phần cứng
Các cuộc thảo luận từ cộng đồng nhấn mạnh những cân nhắc thực tế quan trọng cho người dùng:
- Mô hình 11B yêu cầu tối thiểu 8GB VRAM
- Mô hình 90B đòi hỏi ít nhất 64GB VRAM
- Thử nghiệm ban đầu cho thấy kết quả không đồng đều với các tác vụ nhận dạng hình ảnh cơ bản
- Mô hình có thể chạy trên phần cứng tiêu dùng như MacBook, mặc dù hiệu năng có sự khác biệt
Hạn chế và mối quan ngại hiện tại
Người dùng đã xác định một số vấn đề đáng quan tâm:
- Thử nghiệm ban đầu cho thấy một số vấn đề về độ chính xác với các tác vụ cơ bản như đếm đối tượng và nhận dạng màu sắc
- Báo cáo về việc kiểm duyệt nội dung nghiêm ngặt so với các mô hình thị giác khác
- Vấn đề giao diện với chỉnh sửa nhiều dòng và xử lý tên tệp
- Quan ngại về bảo mật liên quan đến việc tự động phát hiện và đọc tệp
Phát triển trong tương lai
Đội ngũ Ollama đã chỉ ra kế hoạch mở rộng khả năng đa phương thức, với khả năng tích hợp các mô hình khác như Pixtral và Qwen2.5-vl trong tương lai. Cộng đồng cũng đang quan tâm đến việc hỗ trợ Vulkan Compute, mặc dù yêu cầu kéo (pull request) vẫn đang được xem xét.
Việc triển khai này thể hiện sự khác biệt đáng kể so với mã nguồn llama.cpp ban đầu, với các triển khai tùy chỉnh cho xử lý hình ảnh và quy trình mã hóa sử dụng GGML. Sự thay đổi kiến trúc này có thể có ảnh hưởng đến phát triển và khả năng tương thích trong tương lai.
Nguồn: Ollama Blog - Llama 3.2 Vision Nguồn: Thảo luận trên Hacker News