DeepSeek vừa ra mắt Janus Pro, một mô hình AI đa phương thức mới đang tạo ra nhiều cuộc thảo luận trong cộng đồng công nghệ nhờ cách tiếp cận hiệu quả trong việc tạo và hiểu hình ảnh AI. Được đặt theo tên vị thần La Mã có hai gương mặt - tượng trưng cho khả năng kép trong cả việc hiểu và tạo ra nội dung hình ảnh - mô hình 7 tỷ tham số này đánh dấu một cột mốc quan trọng khác trong sự phát triển nhanh chóng của DeepSeek trong lĩnh vực AI.
Kiến trúc hiệu quả
Mô hình thể hiện hiệu quả đáng kể trong kiến trúc của nó, yêu cầu ít tài nguyên tính toán hơn đáng kể so với các đối thủ cạnh tranh. Quá trình đào tạo được hoàn thành chỉ trong 7-14 ngày sử dụng cụm 16-32 node, mỗi node được trang bị 8 GPU NVIDIA A100. Điều này chuyển thành chi phí đào tạo ước tính khoảng 110.000 đô la Mỹ - chỉ bằng một phần nhỏ so với chi phí 1 triệu đô la Mỹ được báo cáo cho việc đào tạo các mô hình trước đó như DALL-E 2.
Thông số kỹ thuật:
- Kích thước mô hình: 7B tham số
- Cơ sở hạ tầng huấn luyện: 16-32 nút với mỗi nút 8 GPU NVIDIA A100 (40GB)
- Thời gian huấn luyện: 7-14 ngày
- Độ phân giải hình ảnh: 384x384
- Chi phí huấn luyện ước tính: ~110.000 USD
Tính năng chính:
- Khả năng đa phương thức (chuyển đổi văn bản thành hình ảnh và hiểu hình ảnh)
- Cho phép sử dụng cho mục đích thương mại
- Hạn chế sử dụng cho mục đích quân sự
- Có thể triển khai cục bộ
Giới hạn và khả năng kỹ thuật
Mặc dù Janus Pro thể hiện triển vọng trong các điểm chuẩn, nó vẫn có những hạn chế đáng chú ý. Hiện tại, mô hình bị giới hạn ở việc tạo hình ảnh với độ phân giải 384x384, thấp hơn đáng kể so với độ phân giải 1024x1024 mà một số đối thủ cạnh tranh cung cấp. Tuy nhiên, các cuộc thảo luận trong cộng đồng cho thấy giới hạn này có thể là có chủ ý, tập trung vào việc hiểu prompt và chất lượng tạo hình ảnh hơn là độ phân giải thô, điều này có thể được giải quyết thông qua việc nâng cấp.
Vẫn chưa có cơ chế nào trong GenAI thực thi các ràng buộc suy diễn (và tính kết hợp), tức là các tình huống khi một đầu ra được tạo ra thì không gian tìm kiếm cho các đầu ra tương lai nhất thiết bị ràng buộc (và những ràng buộc đó kết hợp với nhau).
Tác động thị trường
Thông báo này đã tạo ra những tác động đáng kể trên thị trường công nghệ, góp phần vào những biến động đáng chú ý trong cổ phiếu của các công ty tập trung vào AI. Những cải tiến về hiệu quả của mô hình đã đặc biệt ảnh hưởng đến nhận thức thị trường về yêu cầu phần cứng cho phát triển AI, thách thức các giả định về quy mô cơ sở hạ tầng cần thiết cho khả năng AI cạnh tranh.
Cấp phép và khả năng tiếp cận
DeepSeek đã phát hành Janus Pro dưới giấy phép riêng của họ, cho phép sử dụng thương mại trong khi hạn chế các ứng dụng quân sự. Cách tiếp cận tương đối mở này, kết hợp với kiến trúc hiệu quả của mô hình, có khả năng làm giảm rào cản gia nhập cho các tổ chức đang tìm kiếm việc triển khai khả năng tạo hình ảnh AI tiên tiến.
Sự phát triển của Janus Pro đại diện cho một bước tiến quan trọng trong việc dân chủ hóa công nghệ tạo hình ảnh AI, mặc dù vẫn còn những câu hỏi về hiệu suất thực tế của nó so với các giải pháp đã được thiết lập. Khi công nghệ tiếp tục phát triển, việc tập trung vào hiệu quả và khả năng tiếp cận có thể định hình lại cách chúng ta tiếp cận việc phát triển và triển khai mô hình AI.
Tham khảo: Báo cáo kỹ thuật Janus Pro