Phi-3-vision của Microsoft: Trí tuệ nhân tạo nhỏ gọn có thể nhìn và hiểu

BigGo Editorial Team
Phi-3-vision của Microsoft: Trí tuệ nhân tạo nhỏ gọn có thể nhìn và hiểu

Microsoft giới thiệu Phi-3-vision: Phân tích hình ảnh AI cho thiết bị di động

Microsoft đã mở rộng dòng mô hình ngôn ngữ nhỏ Phi-3 với một sự bổ sung thú vị mới: Phi-3-vision. Mô hình AI sáng tạo này mang khả năng phân tích hình ảnh mạnh mẽ đến các thiết bị di động, đánh dấu một bước tiến quan trọng trong việc làm cho AI tiên tiến trở nên dễ tiếp cận trên các thiết bị hàng ngày.

Cam kết đổi mới của Microsoft được thể hiện qua việc ra mắt Phi-3-vision, một công cụ phân tích hình ảnh AI cho thiết bị di động
Cam kết đổi mới của Microsoft được thể hiện qua việc ra mắt Phi-3-vision, một công cụ phân tích hình ảnh AI cho thiết bị di động

Các tính năng chính của Phi-3-vision:

  • Khả năng đa phương thức: Khác với các mô hình chỉ xử lý văn bản, Phi-3-vision có thể xử lý cả văn bản và hình ảnh.
  • Kích thước nhỏ gọn: Với 4,2 tỷ tham số, nó được thiết kế để hoạt động hiệu quả trên các thiết bị di động.
  • Suy luận hình ảnh: Xuất sắc trong việc phân tích hình ảnh, biểu đồ và các nội dung trực quan khác.
  • Trả lời câu hỏi: Người dùng có thể đặt câu hỏi về hình ảnh và nhận được câu trả lời sâu sắc.

Gia đình Phi-3 ngày càng lớn mạnh

Phi-3-vision gia nhập một dòng sản phẩm gồm các mô hình ngôn ngữ nhỏ ngày càng có khả năng từ Microsoft:

  1. Phi-3-mini: 3,8 tỷ tham số
  2. Phi-3-vision: 4,2 tỷ tham số
  3. Phi-3-small: 7 tỷ tham số
  4. Phi-3-medium: 14 tỷ tham số

Tại sao các mô hình nhỏ lại quan trọng

Xu hướng hướng tới các mô hình AI nhỏ hơn, hiệu quả hơn đang ngày càng phát triển. Những cỗ máy nhỏ gọn nhưng mạnh mẽ này mang lại một số lợi thế:

  • Hiệu quả tài nguyên: Yêu cầu ít sức mạnh xử lý và bộ nhớ hơn.
  • Thân thiện với thiết bị di động: Có thể chạy trực tiếp trên điện thoại thông minh và máy tính bảng.
  • Tiết kiệm chi phí: Nhu cầu tính toán thấp hơn dẫn đến chi phí vận hành giảm.

Microsoft đã đạt được thành công với cách tiếp cận này. Mô hình Orca-Math của họ, một AI quy mô nhỏ khác, được cho là đã vượt trội hơn các đối thủ lớn hơn trong việc giải quyết các vấn đề toán học phức tạp.

Khả năng sử dụng

  • Phi-3-vision hiện đang có sẵn ở phiên bản xem trước.
  • Phần còn lại của gia đình Phi-3 (mini, small và medium) có thể được truy cập thông qua thư viện mô hình của Azure.

Mặc dù Phi-3-vision không tạo ra hình ảnh như DALL-E hoặc Stable Diffusion, khả năng hiểu và phân tích nội dung hình ảnh của nó mở ra những khả năng thú vị cho các ứng dụng AI trên thiết bị di động. Khi Microsoft tiếp tục mở rộng ranh giới của những gì có thể với các mô hình AI nhỏ gọn, chúng ta có thể mong đợi thấy các khả năng AI ngày càng tinh vi xuất hiện trong các thiết bị hàng ngày của chúng ta.