Dự án mới nhất của NVIDIA trong lĩnh vực tạo âm thanh bằng AI đã làm dấy lên những cuộc thảo luận sôi nổi trong cộng đồng công nghệ, khi mô hình Fugatto mới của họ hứa hẹn mang đến sự linh hoạt chưa từng có trong việc xử lý âm thanh nhưng cũng phải đối mặt với nhiều nghi vấn về hiệu suất thực tế.
Lời hứa về mặt kỹ thuật và thực tế ứng dụng
Trong khi NVIDIA định vị Fugatto (Foundational Generative Audio Transformer Opus I) như một công cụ đột phá có khả năng xử lý mọi kết hợp âm nhạc, giọng nói và âm thanh thông qua lệnh văn bản, phản hồi ban đầu từ cộng đồng cho thấy có khoảng cách đáng kể giữa khả năng lý thuyết và kết quả thực tế. Các chuyên gia âm thanh và người đam mê chỉ ra những vấn đề về chất lượng âm thanh, đặc biệt là âm nhạc bị bóp méo và âm sắc nhạc cụ không tự nhiên.
Các tính năng chính của Fugatto:
- Hỗ trợ đầu vào văn bản và âm thanh
- Kỹ thuật ComposableART để kết hợp các chỉ dẫn
- Khả năng xử lý âm thanh đa nhiệm
- Tạo giọng nói, âm nhạc và hiệu ứng âm thanh
- Chuyển đổi âm thanh theo thời gian thực
Những lo ngại của cộng đồng về chất lượng âm thanh AI
Cộng đồng âm thanh đã nêu lên những quan ngại đáng kể về chất lượng nội dung được tạo ra bởi AI, đặc biệt nhấn mạnh đến những hạn chế hiện tại trong việc tạo âm thanh tổng hợp. Như một thành viên cộng đồng đã nhận xét:
Mặc dù đây có thể là một bước đột phá về mặt kỹ thuật, nhưng không có ví dụ nào nghe thực sự tốt. Mọi khía cạnh của âm thanh được tạo ra đều có vấn đề. Âm nhạc nghe bị bóp méo và mix không tốt.
Một người nghe đang khám phá âm thanh do AI tạo ra thông qua tai nghe |
Tác động đến ngành công nghiệp sáng tạo
Các nhà sáng tạo chuyên nghiệp đã bày tỏ sự hoài nghi về cách tiếp cận của mô hình đối với các nhiệm vụ sáng tạo. Cuộc tranh luận tập trung vào việc liệu các giải pháp dựa trên kỹ thuật có thể nắm bắt đầy đủ những sắc thái tinh tế của sự sáng tạo của con người hay không. Mặc dù Fugatto cung cấp các tính năng như ComposableART để kết hợp các hướng dẫn âm thanh khác nhau, một số người cho rằng khả năng kỹ thuật đơn thuần không đảm bảo kết quả âm nhạc thỏa mãn.
Bối cảnh cạnh tranh
Thú vị là các thành viên cộng đồng đã chỉ ra những giải pháp hiện có trên thị trường, như Suno, mà họ cho rằng tạo ra kết quả âm nhạc tốt hơn. Điều này cho thấy rằng mặc dù cách tiếp cận toàn diện của Fugatto là mới mẻ, nhưng các công cụ chuyên biệt hiện tại có thể mang lại kết quả vượt trội hơn trong các nhiệm vụ tạo âm thanh cụ thể.
Tiềm năng tương lai
Mặc dù có những hạn chế hiện tại, tầm nhìn của NVIDIA về việc học đa nhiệm vụ không giám sát trong tổng hợp âm thanh đại diện cho một bước tiến quan trọng. Khả năng kết hợp các yếu tố âm thanh khác nhau thông qua các lệnh văn bản đơn giản cuối cùng có thể cách mạng hóa quy trình sản xuất âm thanh, ngay cả khi việc triển khai hiện tại chưa đạt tiêu chuẩn chuyên nghiệp.
Tham khảo: Now Hear This: World's Most Flexible Sound Machine Debuts