Cách tiếp cận sáng tạo của một học sinh trung học về phân tích âm thanh đã khơi mào một cuộc thảo luận sôi nổi trong cộng đồng công nghệ về tình hình hiện tại và những thách thức của công nghệ chuyển đổi âm nhạc. Dự án này, ban đầu được mô tả là tách nguồn âm thanh, đã làm nổi bật những khác biệt quan trọng trong thuật ngữ xử lý âm thanh và cho thấy sự phức tạp của việc chuyển đổi âm thanh thành bản nhạc.
Làm rõ về Công nghệ
Cuộc thảo luận trong cộng đồng đã chỉ ra sự khác biệt quan trọng giữa tách nguồn âm thanh và những gì dự án thực sự thực hiện. Thay vì thực hiện tách stem (tách riêng từng nhạc cụ từ một bản nhạc tổng hợp), dự án tập trung vào việc phát hiện cao độ và phân loại nhạc cụ sử dụng biến đổi Fourier và phân tích bao âm.
Tách nguồn âm thanh tôi nghĩ là thuật ngữ chung được sử dụng trong nghiên cứu. Nó thường được áp dụng cho âm thanh âm nhạc, nơi bạn muốn thực hiện tách stem - đó là tách nguồn khi bạn muốn tách các stem âm thanh, một thuật ngữ chỉ âm thanh từ các nhóm tín hiệu liên quan, ví dụ như trống (có thể chứa nhiều tín hiệu riêng lẻ, như một tín hiệu cho mỗi trống/cymbal). [https://news.ycombinator.com/item?id=42098491]
Tình trạng Hiện tại của Chuyển đổi Âm nhạc
Cuộc thảo luận cho thấy việc chuyển đổi âm nhạc tự động đã trở thành một lĩnh vực phụ quan trọng của học sâu và truy xuất thông tin âm nhạc. Đặc biệt với việc chuyển đổi piano, công nghệ đã đạt được độ chính xác ấn tượng. Tuy nhiên, chuyển đổi đa track cho các bản phối phức tạp vẫn còn nhiều thách thức.
Thách thức Kỹ thuật
Cộng đồng đã xác định một số hạn chế kỹ thuật:
- Sự thay đổi vật lý của nhạc cụ: Cùng một nhạc cụ có thể tạo ra các phổ hài khác nhau tùy thuộc vào cường độ chơi
- Bố cục phức tạp: Âm nhạc thực nghiệm với kỹ thuật chơi không theo quy ước có thể tạo ra kết quả không thể dự đoán
- Diễn giải bản nhạc: Chuyển đổi MIDI thành ký hiệu âm nhạc phù hợp liên quan đến các quy tắc văn hóa và ngữ cảnh phức tạp
- Độ chính xác về thời lượng và cường độ: Mặc dù việc phát hiện cao độ và thời điểm bắt đầu hoạt động tốt, thời lượng nốt nhạc và cường độ vẫn còn là thách thức
Giải pháp trong Ngành
Cộng đồng đã nêu bật một số giải pháp hiện có trong lĩnh vực này:
- Các DAW (Digital Audio Workstation) thương mại ngày càng tích hợp các tính năng tách stem
- Dự án MT3 của Google cho chuyển đổi âm nhạc đa track
- Demucs của Meta cho tách nguồn
- Các công cụ chuyên biệt như RipX và Stemroller
Cuộc thảo luận nhấn mạnh rằng mặc dù đã có những tiến bộ đáng kể trong lĩnh vực này, đặc biệt là với việc chuyển đổi một nhạc cụ đơn lẻ, việc tạo ra bản chuyển đổi chính xác cho nhiều nhạc cụ vẫn là một thách thức phức tạp đòi hỏi các phương pháp tiếp cận tinh vi hơn xử lý tín hiệu cơ bản.
Nguồn: Audio Decomposition Nguồn: Hacker News Discussion