AMD đã có bước đột phá đầu tiên vào thế giới mô hình ngôn ngữ nhỏ với việc ra mắt AMD-135M, thể hiện tham vọng ngày càng lớn của công ty trong lĩnh vực AI. Mô hình mới này nhằm cung cấp khả năng AI hiệu quả cho doanh nghiệp đồng thời tận dụng thế mạnh phần cứng của AMD.
Những điểm nổi bật của AMD-135M:
- Hai biến thể: AMD-Llama-135M cho mục đích sử dụng chung và AMD-Llama-135M-code được tối ưu hóa cho các tác vụ lập trình
- Quá trình đào tạo:
- Mô hình cơ bản được đào tạo trên 670 tỷ token trong 6 ngày
- Biến thể lập trình được tinh chỉnh với 20 tỷ token bổ sung trong 4 ngày
- Sử dụng bốn nút AMD Instinct MI250 8 chiều để đào tạo
- Giải mã dự đoán: Sử dụng một mô hình nháp nhỏ hơn để tạo ra nhiều token ứng viên đồng thời, được xác minh bởi một mô hình mục tiêu lớn hơn
- Tuyên bố về hiệu suất: AMD báo cáo tăng tốc đáng kể trên phần cứng của họ so với suy luận không có giải mã dự đoán
Việc giới thiệu AMD-135M cho thấy ý định của công ty trong việc cạnh tranh trong không gian mô hình AI, có khả năng thách thức vị thế thống trị của NVIDIA. Bằng cách tập trung vào các mô hình ngôn ngữ nhỏ, AMD đang nhắm đến một thị trường ngách có thể đặc biệt có giá trị cho các doanh nghiệp yêu cầu giải pháp AI tại chỗ với nhu cầu tính toán thấp hơn.
Cách tiếp cận của AMD trong việc mở mã nguồn cho mã đào tạo, bộ dữ liệu và trọng số cho AMD-135M có thể thúc đẩy sự hợp tác và đổi mới trong cộng đồng AI. Động thái này phù hợp với xu hướng ngày càng tăng về phát triển AI dễ tiếp cận và minh bạch hơn.
Mặc dù các tuyên bố về hiệu suất rất đáng hứa hẹn, đáng lưu ý rằng các điểm chuẩn được thực hiện bởi chính AMD. Kiểm tra độc lập sẽ rất quan trọng để xác nhận những kết quả này trên các kịch bản và cấu hình phần cứng khác nhau.
Khi AMD tiếp tục phát triển danh mục đầu tư AI của mình, bao gồm cả phần cứng và phần mềm, ngành công nghệ sẽ theo dõi chặt chẽ để xem điều này ảnh hưởng như thế nào đến cảnh quan cạnh tranh và thúc đẩy đổi mới trong công nghệ AI.