Dia 1.6B: Mô hình Text-to-Speech mã nguồn mở gây ấn tượng với khả năng tạo đối thoại tự nhiên và điều khiển giọng nói

BigGo Editorial Team
Dia 1.6B: Mô hình Text-to-Speech mã nguồn mở gây ấn tượng với khả năng tạo đối thoại tự nhiên và điều khiển giọng nói

Nari Labs đã phát hành Dia-1.6B, một mô hình text-to-speech mã nguồn mở đang tạo tiếng vang lớn trong cộng đồng AI nhờ khả năng tạo ra các đoạn đối thoại có âm thanh tự nhiên đáng kinh ngạc. Điều làm cho phiên bản này đặc biệt đáng chú ý là nó được phát triển bởi một nhóm nhỏ chỉ gồm hai kỹ sư trong vòng ba tháng, nhưng mang lại chất lượng có thể cạnh tranh với các sản phẩm từ những công ty lớn hơn nhiều.

Kho lưu trữ GitHub cho mô hình text-to-speech mã nguồn mở Dia được phát triển bởi Nari Labs
Kho lưu trữ GitHub cho mô hình text-to-speech mã nguồn mở Dia được phát triển bởi Nari Labs

Tạo đối thoại tự nhiên

Khác với các mô hình text-to-speech (TTS) truyền thống tạo ra từng dòng thoại của mỗi người nói riêng biệt rồi ghép lại với nhau, Dia tạo ra toàn bộ cuộc hội thoại trong một lần xử lý duy nhất. Cách tiếp cận này tạo ra đối thoại có âm thanh tự nhiên hơn với nhịp điệu phù hợp, các đoạn chồng lấn và tính liên tục về cảm xúc. Các thành viên cộng đồng đặc biệt ấn tượng với khả năng tạo ra các yếu tố phi ngôn ngữ như tiếng cười, ho và tằng hắng của mô hình.

Điều này thực sự ấn tượng; chúng ta đang tiến gần đến một ước mơ của tôi: khả năng tạo ra sách nói đúng nghĩa từ các file EPUB. Không chỉ là một giọng đơn điệu máy móc cho mọi thứ, mà là những giọng nói khác nhau, nhất quán cho từng nhân vật.

Chất lượng đầu ra của Dia đã làm nhiều người dùng ngạc nhiên, với một số nhận xét rằng các ví dụ nghe giống con người một cách đáng kinh ngạc. Một số người đã lưu ý rằng các ví dụ demo có chất lượng gần như của sân khấu kịch, với một người dùng so sánh phong cách này với các nhân vật từ chương trình truyền hình The Office. Nhận xét này đã dẫn đến việc một người dùng khác phát hiện ra rằng một trong những ví dụ demo thực sự dựa trên một cảnh từ chương trình đó.

Điều khiển giọng nói và cảm xúc

Một tính năng nổi bật của Dia là hỗ trợ gợi ý âm thanh, cho phép người dùng điều chỉnh đầu ra theo giọng nói cụ thể hoặc âm điệu cảm xúc. Bằng cách cung cấp một đoạn âm thanh mẫu, người dùng có thể yêu cầu mô hình tiếp tục tạo ra giọng nói theo cùng một phong cách. Khả năng này mở ra nhiều khả năng cho việc tạo giọng nhân vật nhất quán trong sách nói, podcast và các ứng dụng sáng tạo khác.

Một số người dùng đã báo cáo kết quả không đồng đều với các tính năng điều khiển cảm xúc, với một người đề cập đến các yếu tố không mong muốn như nhạc nền xuất hiện khi cố gắng chỉ định âm điệu vui vẻ. Mặc dù đôi khi có những điểm kỳ lạ này, nhìn chung khả năng duy trì đặc điểm giọng nói nhất quán trong suốt đoạn đối thoại dường như hoạt động tốt.

Yêu cầu phần cứng và khả năng tiếp cận

Phiên bản đầy đủ của Dia hiện yêu cầu khoảng 10GB VRAM để chạy, điều này khiến nó vượt quá tầm với của người dùng có phần cứng khiêm tốn hơn. Tuy nhiên, các nhà phát triển đã cho biết họ có kế hoạch phát hành phiên bản lượng tử hóa (quantized) trong tương lai sẽ giảm các yêu cầu này, tương tự như cách mô hình Bark của Suno đã phát triển từ việc cần 16GB xuống chỉ chạy trên 4GB VRAM.

Các thành viên cộng đồng đã bắt đầu điều chỉnh mô hình cho các cấu hình phần cứng khác nhau, với một người dùng đã thành công trong việc chạy nó trên MacBook Pro M2 Pro. Một người khác xác nhận nó cũng hoạt động trên chip M4. Các nhà phát triển đã đề cập rằng mặc dù hiện tại cần hỗ trợ GPU, hỗ trợ CPU sẽ được bổ sung sớm.

Thông số kỹ thuật Dia-1.6B

  • Kích thước mô hình: 1,6 tỷ tham số
  • Yêu cầu phần cứng: ~10GB VRAM (yêu cầu GPU)
  • Nền tảng đã được kiểm nghiệm:
    • GPU NVIDIA với CUDA 12.6
    • MacBook Pro M2 Pro (thông qua điều chỉnh từ cộng đồng)
    • Apple Silicon M4
  • Tốc độ tạo: ~40 token/giây trên GPU A4000 (86 token = 1 giây âm thanh)
  • Tính năng chính:
    • Tạo đối thoại trực tiếp (không phải ghép nối từng giọng riêng lẻ)
    • Điều chỉnh bằng mẫu âm thanh để kiểm soát giọng nói/cảm xúc
    • Giao tiếp phi ngôn ngữ (cười, ho, v.v.)
    • Hỗ trợ nhiều người nói

Lịch trình phát triển

  • Được tạo ra bởi một nhóm 2 kỹ sư (1 toàn thời gian, 1 bán thời gian)
  • Phát triển trong khoảng 3 tháng
  • Không có kinh nghiệm trước đây với các mô hình giọng nói trước khi bắt đầu

Đóng góp mã nguồn mở và phát triển tương lai

Là một dự án mã nguồn mở được phát hành theo Giấy phép Apache 2.0, Dia đã bắt đầu nhận được đóng góp từ cộng đồng. Người dùng đã gửi các pull request để cải thiện khả năng tương thích với các nền tảng phần cứng khác nhau, và một số đã thảo luận về các chiến lược triển khai Docker.

Các nhà phát triển đã phác thảo một số lĩnh vực cần cải thiện trong tương lai, bao gồm hỗ trợ Docker, tối ưu hóa tốc độ suy luận và lượng tử hóa để tăng hiệu quả bộ nhớ. Họ cũng bày tỏ sự quan tâm đến việc mở rộng hỗ trợ ngôn ngữ ngoài tiếng Anh, điều mà nhiều thành viên cộng đồng đã yêu cầu.

Việc phát hành Dia đại diện cho một bước tiến đáng kể khác trong việc dân chủ hóa quyền tiếp cận công nghệ tổng hợp giọng nói AI tiên tiến. Bằng cách công khai mô hình 1.6B tham số của họ, Nari Labs đã cung cấp cho các nhà nghiên cứu và phát triển một công cụ mạnh mẽ có thể tạo ra đối thoại giống con người một cách thuyết phục mà không cần đến nguồn lực của một công ty công nghệ lớn.

Tham khảo: nari-labs/dia