Apple sử dụng TPU của Google, không phải GPU của Nvidia, để huấn luyện mô hình AI

BigGo Editorial Team
Apple sử dụng TPU của Google, không phải GPU của Nvidia, để huấn luyện mô hình AI

Apple sử dụng TPU của Google để huấn luyện mô hình AI

Trong một động thái bất ngờ, Apple đã tiết lộ rằng họ đã sử dụng Tensor Processing Units (TPU) của Google thay vì GPU của Nvidia để huấn luyện các mô hình trí tuệ nhân tạo hỗ trợ các tính năng Apple Intelligence mới của họ.

Sự hợp tác của Apple với Google trong việc huấn luyện mô hình AI cho thấy việc sử dụng đáng chú ý các TPU của Google
Sự hợp tác của Apple với Google trong việc huấn luyện mô hình AI cho thấy việc sử dụng đáng chú ý các TPU của Google

Điểm chính:

  • Apple sử dụng chip TPUv4 và TPUv5 của Google để huấn luyện mô hình AI
  • Công ty không sử dụng phần cứng của Nvidia, mặc dù Nvidia thống trị trong lĩnh vực tăng tốc AI
  • Mô hình lớn nhất của Apple, AFM-server, được huấn luyện trên 8.192 chip TPUv4
  • Một mô hình nhỏ hơn 3B tham số trên thiết bị được huấn luyện bằng 2.048 chip TPUv5p
So sánh điểm chuẩn của các mô hình AI khác nhau, nhấn mạnh hiệu suất của AFM-server và AFM-on-device của Apple
So sánh điểm chuẩn của các mô hình AI khác nhau, nhấn mạnh hiệu suất của AFM-server và AFM-on-device của Apple

Quy trình huấn luyện

Bài báo nghiên cứu của Apple nêu rõ quy trình huấn luyện nhiều giai đoạn cho các mô hình Apple Foundation Models (AFM):

  1. AFM-server (mô hình lớn nhất):

    • Được huấn luyện trên 8.192 chip TPUv4 trong cấu hình phân tán
    • Quy trình ba giai đoạn sử dụng 6,3T token, 1T token và 100B token để kéo dài ngữ cảnh
  2. AFM-on-device (mô hình 3B tham số):

    • Được chắt lọc từ mô hình server 6,4B
    • Được huấn luyện trên 2.048 chip TPUv5p

Nguồn dữ liệu

Dữ liệu huấn luyện của Apple bao gồm:

  • Nội dung web được thu thập bởi Applebot (tuân thủ robots.txt)
  • Bộ dữ liệu chất lượng cao được cấp phép
  • Bộ dữ liệu công khai, mã nguồn và toán học được chọn lọc cẩn thận

Tuyên bố về hiệu suất

Theo kiểm tra nội bộ của Apple, cả mô hình AFM-server và AFM-on-device đều xuất sắc trong nhiều tiêu chuẩn đánh giá, bao gồm:

  • Tuân thủ hướng dẫn
  • Sử dụng công cụ
  • Viết lách

Ý nghĩa đối với ngành

Tiết lộ này có ý nghĩa quan trọng vì một số lý do:

  1. Tách khỏi Nvidia: Việc Apple chọn sử dụng TPU của Google thay vì GPU tiêu chuẩn của Nvidia là đáng chú ý.
  2. Sức mạnh phần cứng của Google: Quyết định này có thể được xem như sự công nhận khả năng TPU của Google.
  3. Cảnh quan cạnh tranh: Sự minh bạch của Apple trong việc công bố thông tin chi tiết về quá trình phát triển AI cho thấy mong muốn được coi là một đối thủ nghiêm túc trong lĩnh vực AI.

Khi cuộc đua AI giữa các gã khổng lồ công nghệ ngày càng gay gắt, lựa chọn phần cứng và chiến lược phát triển của Apple sẽ được các nhà quan sát ngành và đối thủ cạnh tranh theo dõi chặt chẽ.

Để biết thêm thông tin chi tiết về kỹ thuật huấn luyện mô hình AI và các tiêu chuẩn đánh giá của Apple, độc giả quan tâm có thể tham khảo bài báo nghiên cứu đầy đủ do công ty công bố.

Cập nhật: Thứ Ba ngày 30 tháng 7 lúc 20:42

Việc Apple sử dụng TPU của Google để huấn luyện mô hình AI là một phần trong chiến lược phát triển AI lớn hơn. Công ty đang đầu tư 5 tỷ đô la vào phát triển AI trong hai năm tới, tập trung vào việc chuyển đổi sang cơ sở hạ tầng phần cứng của riêng mình cho xử lý AI trong tương lai. Điều này bao gồm Dự án ACDC, một sáng kiến sử dụng phần cứng dựa trên Apple Silicon trong các trung tâm dữ liệu của họ cho các tác vụ AI. Ngoài ra, Apple đang áp dụng cách tiếp cận minh bạch hơn trong phát triển AI, bao gồm việc phát hành các mô hình ngôn ngữ mã nguồn mở. Công ty cũng đã làm rõ rằng mặc dù họ đã sử dụng bộ dữ liệu The Pile để huấn luyện các mô hình OpenELM, nhưng các mô hình này không cung cấp năng lượng cho bất kỳ sản phẩm AI thương mại nào của Apple, bao gồm cả Apple Intelligence.

Bố cục kiến trúc của hệ thống Intelligence của Apple, phác thảo các thành phần và hướng phát triển AI trong tương lai
Bố cục kiến trúc của hệ thống Intelligence của Apple, phác thảo các thành phần và hướng phát triển AI trong tương lai