Trong khi Google tiếp tục mở rộng ranh giới của công nghệ tạo giọng nói bằng AI, phản hồi ban đầu từ người dùng cho thấy công nghệ này vẫn đang vật lộn với hiệu ứng thung lũng kỳ bí (uncanny valley), nơi mà chất lượng giọng nói tổng hợp gần như người thật tạo ra trải nghiệm khó chịu cho người nghe.
Thách thức của Thung lũng kỳ bí
Phản hồi từ cộng đồng cho thấy một nghịch lý thú vị trong công nghệ tạo âm thanh mới nhất của Google. Mặc dù đạt được những thành tựu kỹ thuật đáng kể trong việc tạo ra đoạn hội thoại tự nhiên, người dùng báo cáo cảm thấy không thoải mái với tính cách nhân tạo được tích hợp trong giọng nói được tạo ra. Như một người dùng đã nhận xét, trải nghiệm có thể gây khó chịu đến mức khó có thể nghe một bản demo 30 giây, với việc người nghe thích nhận thông tin trực tiếp hơn là các cuộc hội thoại được cá nhân hóa một cách giả tạo.
Thành tựu kỹ thuật
Bất chấp những rào cản tâm lý này, công nghệ tạo giọng nói mới nhất của Google thể hiện những tiến bộ kỹ thuật đáng kể:
- Khả năng tạo ra các đoạn hội thoại 2 phút với nhiều người nói
- Tốc độ xử lý nhanh gấp 40 lần so với thời gian thực
- Chỉ cần một lần suy luận sử dụng một chip TPU v5e
- Hoàn thành trong vòng dưới 3 giây
- Nén siêu hiệu quả ở mức 600 bit mỗi giây
Công nghệ đằng sau giọng nói
Hệ thống được xây dựng dựa trên các nghiên cứu trước đây bao gồm SoundStorm, SoundStream và AudioLM, sử dụng:
- Kiến trúc Transformer chuyên biệt để xử lý thông tin phân cấp
- Bộ giải mã âm thanh neural để nén hiệu quả
- Đào tạo trên hàng trăm nghìn giờ dữ liệu giọng nói
- Tinh chỉnh trên các bộ dữ liệu hội thoại chất lượng cao với độ ngắt quãng thực tế
An toàn và Trách nhiệm
Để giải quyết các mối lo ngại về việc sử dụng sai mục đích, Google đã triển khai công nghệ watermark SynthID cho nội dung âm thanh được tạo bởi AI không tạm thời, phù hợp với Nguyên tắc AI của họ về việc triển khai công nghệ có trách nhiệm.
Phát triển trong tương lai
Google đang tích cực cải thiện:
- Khả năng biểu cảm của giọng nói
- Chất lượng âm thanh
- Kiểm soát ngữ điệu chi tiết
- Tích hợp với các phương thức video
Mặc dù công nghệ này cho thấy tiềm năng trong các ứng dụng học tập và khả năng tiếp cận nội dung, phản hồi từ cộng đồng cho thấy việc vượt qua khoảng cách thung lũng kỳ bí vẫn là một thách thức quan trọng để công nghệ tạo giọng nói AI được áp dụng rộng rãi.