Mô Hình Giọng Nói CSM Mã Nguồn Mở của Sesame Không Đạt Được Kỳ Vọng Như Demo

BigGo Editorial Team
Mô Hình Giọng Nói CSM Mã Nguồn Mở của Sesame Không Đạt Được Kỳ Vọng Như Demo

Gần đây, Sesame AI đã công bố mã nguồn mở cho Mô Hình Hội Thoại Bằng Giọng Nói (CSM) của họ, nhưng bản phát hành này đã gây thất vọng trong cộng đồng nhà phát triển. Trong khi công ty trước đây đã giới thiệu các demo giọng nói tương tác ấn tượng, nhiều người dùng nhận thấy mô hình 1B tham số được phát hành kém khả năng hơn đáng kể so với những gì đã được trình diễn.

Phiên Bản Thu Gọn của Công Nghệ Đã Hứa Hẹn

CSM mã nguồn mở là một mô hình tạo giọng nói được xây dựng trên nền tảng Llama với bộ giải mã âm thanh nhỏ hơn tạo ra các mã âm thanh Mimi. Mặc dù về mặt kỹ thuật là hoạt động được, phản hồi từ cộng đồng chỉ ra những hạn chế đáng kể so với demo hoàn chỉnh của Sesame. Nhiều người bình luận đã mô tả việc phát hành này như một rug-pull (lừa đảo), cho rằng Sesame đã phát hành một phiên bản công nghệ của họ bị cắt giảm chức năng một cách có chủ ý.

Hóa ra đó là một rug-pull. Họ đã công bố mã nguồn mở của một phiên bản sesame bị cắt giảm (1B), không phải phiên bản họ đang sử dụng trong demo thực tế.

Mô hình này yêu cầu GPU tương thích với CUDA và đã được kiểm tra trên CUDA 12.4 và 12.6, với Python 3.10 được khuyến nghị. Nó có thể tạo ra giọng nói từ đầu vào văn bản và hoạt động tốt nhất khi được cung cấp ngữ cảnh hội thoại, nhưng người dùng báo cáo rằng chất lượng và hiệu suất kém hơn đáng kể so với kỳ vọng.

Yêu cầu của Mô hình CSM

  • GPU tương thích với CUDA
  • Đã được kiểm nghiệm trên CUDA 12.4 và 12.6
  • Khuyến nghị sử dụng Python 3.10
  • Cần quyền truy cập vào các mô hình Hugging Face:
    • Llama-3.2-1B
    • CSM-1B

Vấn đề được Cộng đồng Báo cáo

  • Chậm hơn đáng kể so với các giải pháp thương mại
  • Chất lượng đầu ra thấp hơn so với các bản demo của Sesame
  • Không phải là giải pháp hoàn chỉnh (chỉ tạo giọng nói)
  • Yêu cầu các thành phần bổ sung để xây dựng trợ lý giọng nói đầy đủ
  • Một số triển khai gặp phải tình trạng tạm dừng khó chịu trong đầu ra giọng nói

Những Quan Ngại về Hiệu Suất và Khả Năng Sử Dụng

Người dùng khi cố gắng triển khai mô hình đã gặp phải những vấn đề đáng kể. Quá trình tạo được báo cáo là rất chậm, và chất lượng đầu ra đã được mô tả là không tối ưu bởi các thành viên cộng đồng đã thử nghiệm. Một người dùng đã đặc biệt đề cập đến một vấn đề trên GitHub (số 80) nơi những hạn chế này đang được thảo luận chi tiết.

Một số nhà phát triển đã tạo ra các triển khai thay thế để cải thiện khả năng tiếp cận, chẳng hạn như một thư viện Python cho người dùng Mac. Tuy nhiên, ngay cả những triển khai này cũng được báo cáo có những điểm kỳ lạ như chèn các khoảng dừng kỳ quặc kéo dài nhiều giây vào đầu ra.

Quyền Riêng Tư và Ứng Dụng Thực Tế

Ngoài các vấn đề về hiệu suất, những lo ngại về quyền riêng tư đã nổi lên liên quan đến giải pháp được lưu trữ của Sesame. Một người dùng lưu ý rằng chính sách ghi âm và xem xét các cuộc hội thoại của Sesame khiến dịch vụ được lưu trữ của họ hoàn toàn không thể chấp nhận được, nhấn mạnh giá trị tiềm năng của một giải pháp mã nguồn mở thực sự có khả năng có thể được tự lưu trữ.

Sự đồng thuận của cộng đồng dường như là mặc dù các mô hình giọng nói mở đại diện cho một cơ hội thú vị để cạnh tranh với các giải pháp độc quyền, bản phát hành cụ thể này không đáp ứng được lời hứa của nó. Như một người bình luận đã lưu ý, khoảng cách giữa mô hình cơ bản này và một trợ lý giọng nói hoàn chỉnh, phản ứng nhanh như những mô hình trong demo của Sesame cho thấy rằng AI giọng nói đòi hỏi phải suy nghĩ theo hướng hệ thống hoàn chỉnh hơn là các thành phần riêng lẻ.

Sự thất vọng xung quanh bản phát hành này cho thấy vẫn còn một cơ hội đáng kể cho các nhà phát triển có thể cung cấp một mô hình giọng nói mã nguồn mở thực sự có khả năng phù hợp với chất lượng của các giải pháp độc quyền. Hiện tại, việc tìm kiếm một giải pháp giọng nói mở thực sự đáp ứng được lời hứa về tương tác giọng nói tự nhiên, phản hồi nhanh vẫn tiếp tục.

Tham khảo: Tài liệu CSM (Conversational Speech Model)