Sự ra mắt gần đây của NotebookLlama, với nỗ lực sao chép khả năng tạo podcast của Google NotebookLM, đã làm dấy lên nhiều cuộc thảo luận trong cộng đồng công nghệ về những thách thức trong việc tạo ra podcast bằng AI có âm thanh tự nhiên và tình trạng hiện tại của công nghệ chuyển văn bản thành giọng nói (TTS).
Tài liệu này phác thảo quy trình chuyển đổi PDF thành podcast, phản ánh quy trình làm việc của NotebookLlama trong việc tạo ra các đầu ra dựa trên trí tuệ nhân tạo |
Khoảng cách thực tế
Mặc dù NotebookLlama cung cấp quy trình bốn bước để chuyển đổi PDF thành podcast, phản hồi từ cộng đồng cho thấy chất lượng đầu ra còn kém xa so với NotebookLM của Google. Khoảng cách này cho thấy tính phức tạp trong cách triển khai của Google, đặc biệt là trong việc xử lý luồng hội thoại tự nhiên và tương tác giữa các người nói.
Hiểu biết kỹ thuật về NotebookLM
Nhiều nhà phát triển và người dùng nhận thấy thành công của NotebookLM nằm ở khả năng tạo ra các cuộc hội thoại tự nhiên, nơi người nói có thể tương tác, ngắt lời và hoàn thành câu nói của nhau. Trong khi một số người cho rằng những sự ngắt quãng này có thể gây khó chịu, những người khác lại cho rằng chúng góp phần tạo nên tính xác thực cho cuộc hội thoại.
Hạn chế và thách thức kỹ thuật
Giới hạn của động cơ TTS
Việc lựa chọn động cơ TTS trong NotebookLlama ( parler-tts/parler-tts-mini-v1 và bark/suno ) đã bị cộng đồng chỉ trích là chưa tối ưu. Các giải pháp mã nguồn mở tiên tiến hơn như XTTSv2 và F5-TTS có thể mang lại kết quả tốt hơn, mặc dù chúng đòi hỏi tài nguyên tính toán đáng kể.
Rào cản chi phí
Một thách thức lớn đối với các nhà phát triển độc lập khi cố gắng sao chép chức năng của NotebookLM là chi phí cao của các API TTS chất lượng. Theo ghi nhận của một số nhà phát triển, ngay cả API TTS tương đối giá rẻ của OpenAI cũng khiến việc tạo ra hàng giờ nội dung âm thanh miễn phí trở nên không khả thi về mặt kinh tế.
Yêu cầu triển khai
NotebookLlama đòi hỏi tài nguyên tính toán đáng kể:
- Máy chủ GPU hoặc nhà cung cấp API cho các mô hình Llama 70B, 8B và 1B
- Bộ nhớ tổng hợp 140GB cho việc suy luận mô hình 70B ở độ chính xác bfloat-16
- Token truy cập Hugging Face để tải xuống mô hình
Vấn đề về giấy phép
Đáng chú ý là mặc dù được giới thiệu là mã nguồn mở, cộng đồng đã chỉ ra rằng NotebookLlama thiếu thông tin giấy phép rõ ràng, có thể hạn chế khả năng sử dụng thực tế ngoài mục đích tham khảo.
Cải tiến trong tương lai
Dự án ghi nhận một số lĩnh vực cần cải thiện:
- Triển khai mô hình giọng nói tốt hơn
- Phương pháp tranh luận LLM với LLM để tạo nội dung
- Thử nghiệm với mô hình 405B cho việc viết kịch bản
- Cải thiện chiến lược tạo prompt
- Hỗ trợ đa dạng định dạng đầu vào (trang web, file âm thanh, link YouTube)
Mặc dù NotebookLlama có thể chưa sánh ngang với độ tinh vi của NotebookLM, nó cung cấp những hiểu biết quý giá về sự phức tạp của việc tạo podcast bằng AI và đóng vai trò như một điểm khởi đầu cho các nhà phát triển quan tâm đến công nghệ này.