DeepSeek ra mắt Janus-Pro thách thức DALL-E 3 với công nghệ AI đa phương thức hiệu quả và mã nguồn mở

BigGo Editorial Team
DeepSeek ra mắt Janus-Pro thách thức DALL-E 3 với công nghệ AI đa phương thức hiệu quả và mã nguồn mở

Trong một bước phát triển quan trọng của ngành công nghiệp AI, startup AI Trung Quốc DeepSeek vừa công bố Janus-Pro, một mô hình AI đa phương thức mới cho thấy cách tiếp cận hiệu quả và tiết kiệm chi phí có thể cạnh tranh với các gã khổng lồ trong ngành. Sự ra mắt này diễn ra vào thời điểm cuộc tranh luận về chi phí phát triển AI và yêu cầu tài nguyên đang ngày càng gay gắt.

Cách tiếp cận mới cho AI đa phương thức

Janus-Pro của DeepSeek đại diện cho một khung tự hồi quy mới có khả năng vừa phân tích vừa tạo ra hình ảnh. Dòng mô hình có kích thước từ 1 tỷ đến 7 tỷ tham số, với phiên bản chủ lực Janus-Pro-7B được báo cáo là vượt trội hơn các giải pháp đã được thiết lập như DALL-E 3 của OpenAI và Stable Diffusion XL của Stability AI trong các bài kiểm tra chuẩn bao gồm GenEval và DPG-Bench.

Thông số kỹ thuật của mô hình:

  • Phạm vi tham số: 1B đến 7B
  • Yêu cầu huấn luyện (mô hình 1.5B): 128 GPU A100, 7 ngày
  • Yêu cầu huấn luyện (mô hình 7B): 256 GPU A100, 14 ngày
  • Giới hạn độ phân giải hình ảnh: 384 x 384 (đối với các mô hình nhỏ hơn)

Đổi mới hiệu quả về chi phí

Việc phát triển Janus-Pro thể hiện chiến lược nhỏ nhưng mạnh của DeepSeek. Quá trình đào tạo cho thấy hiệu quả đáng kể, với mô hình 1,5 tỷ tham số chỉ cần 128 GPU NVIDIA A100 trong bảy ngày, trong khi phiên bản 7 tỷ tham số cần 256 GPU A100 trong mười bốn ngày. Cách tiếp cận này tương phản rõ rệt với tư duy càng lớn càng tốt và yêu cầu tính toán khổng lồ thông thường của ngành.

Mã nguồn mở và khả năng tiếp cận

Được phát hành dưới giấy phép MIT, Janus-Pro có sẵn miễn phí cho mục đích thương mại thông qua các nền tảng phát triển AI như Hugging Face. Cách tiếp cận mã nguồn mở này giúp công nghệ AI tiên tiến dễ tiếp cận hơn với cá nhân và doanh nghiệp nhỏ, mặc dù một số mô hình bị giới hạn ở việc phân tích hình ảnh ở độ phân giải 384 x 384.

Tác động thị trường và giá cả

Cấu trúc giá dịch vụ API của DeepSeek vẫn mang tính cạnh tranh, với chi phí 1 Nhân dân tệ cho mỗi triệu token đầu vào đối với cache hit và 4 Nhân dân tệ cho cache miss, trong khi token đầu ra được định giá ở mức 16 Nhân dân tệ cho mỗi triệu. Mô hình định giá này, kết hợp với hiệu quả của mô hình, thách thức các giả định truyền thống về nguồn lực cần thiết để phát triển AI cạnh tranh.

Cấu trúc giá:

  • Token đầu vào (cache hit): ¥1/triệu CNY
  • Token đầu vào (cache miss): ¥4/triệu CNY
  • Token đầu ra: ¥16/triệu CNY

Vấn đề bảo mật và quyền truy cập

Sau những thách thức bảo mật gần đây, DeepSeek đã triển khai các biện pháp phòng thủ, tạm thời giới hạn đăng ký chỉ cho số điện thoại +86. Động thái này nhấn mạnh tầm quan trọng ngày càng tăng của bảo mật trong việc triển khai AI trong khi vẫn duy trì khả năng cung cấp dịch vụ cho người dùng cốt lõi.