Chiến lược hỗ trợ ROCm của AMD gây tranh cãi về cách tiếp cận phát triển phần mềm GPU

BigGo Editorial Team
Chiến lược hỗ trợ ROCm của AMD gây tranh cãi về cách tiếp cận phát triển phần mềm GPU

Lời kêu gọi gần đây của AMD về việc cộng đồng đóng góp ý kiến cho việc hỗ trợ thiết bị ROCm đã châm ngòi cho một cuộc thảo luận rộng rãi hơn về cách tiếp cận phát triển phần mềm GPU của công ty và vị thế cạnh tranh với NVIDIA trong thị trường AI và điện toán. Cuộc thảo luận cho thấy những lo ngại sâu sắc về chiến lược phần mềm của AMD và làm nổi bật những thách thức mà người dùng gặp phải khi cố gắng tận dụng GPU AMD cho các tác vụ máy học và tính toán.

Hạn chế về hỗ trợ phần mềm

Một điểm gây tranh cãi lớn trong cộng đồng là việc hỗ trợ phần mềm hạn chế và không nhất quán của AMD cho dòng GPU của họ. Trong khi NVIDIA cung cấp hỗ trợ CUDA toàn diện cho toàn bộ sản phẩm của họ, thì hỗ trợ ROCm của AMD lại bị giới hạn đáng kể, chỉ có một số card cao cấp được hỗ trợ đầy đủ. Tình huống này đặc biệt gây khó khăn đối với các card phổ thông, khi việc hỗ trợ có thể bị ngừng trong thời gian ngắn sau khi ra mắt, khiến người dùng thất vọng và đặt câu hỏi về quyết định đầu tư của họ.

GPU tiêu dùng hiện được hỗ trợ trên ROCm Linux:

  • AMD Radeon RX 7900 (các biến thể XTX, XT)
  • Một số dòng Radeon PRO W7000 được chọn lọc

Yêu cầu chính từ cộng đồng:

  • Mở rộng hỗ trợ cho nhiều GPU tiêu dùng hơn
  • Kéo dài thời gian hỗ trợ sản phẩm (tối thiểu 5 năm)
  • Cải thiện tài liệu hướng dẫn và hướng dẫn triển khai
  • Đảm bảo hỗ trợ đồng nhất trên các nền tảng Linux và Windows

Thách thức về tài liệu và triển khai

Người dùng báo cáo gặp nhiều khó khăn trong việc hiểu card nào thực sự được hỗ trợ, với tài liệu chính thức của AMD thường mâu thuẫn hoặc không rõ ràng. Trải nghiệm triển khai rất khác nhau, một số người dùng thành công trong việc chạy các ứng dụng như Stable Diffusion trên các card không được hỗ trợ chính thức thông qua giải pháp cộng đồng, trong khi những người khác gặp khó khăn với các kênh chính thức. Sự thiếu nhất quán này trong tài liệu và hỗ trợ đã tạo ra rào cản cho việc áp dụng, đặc biệt là đối với các nhà phát triển và nhà nghiên cứu cần hỗ trợ lâu dài, đáng tin cậy cho công việc của họ.

Ưu tiên phần cứng so với phần mềm

Cuộc thảo luận của cộng đồng cho thấy một lời chỉ trích cơ bản về cách tiếp cận của AMD đối với điện toán GPU: chiến lược ưu tiên phần cứng của họ so với tập trung vào hệ sinh thái phần mềm của NVIDIA. Mặc dù AMD đã sản xuất phần cứng có tính cạnh tranh, nhưng cơ sở hạ tầng hỗ trợ phần mềm của họ vẫn tụt hậu đáng kể so với hệ sinh thái CUDA của NVIDIA. Sự chênh lệch này dẫn đến tình huống là dù có phần cứng có khả năng, AMD vẫn gặp khó khăn trong việc cung cấp trải nghiệm phát triển mượt mà đã trở thành tiêu chuẩn trong ngành.

Phần cứng của AMD có thể hấp dẫn nếu có hỗ trợ phần mềm tốt, nhưng thực tế không phải vậy. CUDA thường xuyên gặp lỗi khi tôi cố gắng sử dụng Tensorflow trên phần cứng NVIDIA. Việc chạy một bản sao CUDA được triển khai kém, nơi mà ngay cả việc chạy Pytorch cũng là một điều kỳ diệu nhỏ, sẽ rất khó để thuyết phục người dùng.

Dấu hiệu thay đổi

Những phát triển gần đây cho thấy AMD đang bắt đầu nhận ra những thách thức này. Công ty đã cho thấy sự chuyển hướng tập trung vào trải nghiệm phần mềm, API và AI, với lộ trình kéo dài từ 3 đến 5 năm. Tuy nhiên, cộng đồng vẫn còn hoài nghi, dẫn chứng những lời hứa trong quá khứ và nhu cầu cải tiến cụ thể, ngay lập tức thay vì các kế hoạch dài hạn.

Tình hình hiện tại đặt ra một thời điểm quan trọng cho AMD trong thị trường điện toán GPU. Mặc dù công ty đã thể hiện sức mạnh trong phát triển phần cứng và duy trì các đối tác quan trọng với các công ty công nghệ lớn, việc thiếu hỗ trợ phần mềm toàn diện tiếp tục hạn chế khả năng cạnh tranh hiệu quả với NVIDIA, đặc biệt là trong các lĩnh vực AI và máy học đang phát triển nhanh chóng.

Tham khảo: ROCM Device Support Wishlist #4276