Buổi trình diễn gần đây của dự án GibberLink, cho thấy hai AI agent chuyển từ giao tiếp bằng giọng nói sang truyền dữ liệu bằng âm thanh, đã làm dấy lên một cuộc tranh luận sôi nổi trong cộng đồng công nghệ về tính hiệu quả và thực tiễn của những phương pháp như vậy trong giao thức truyền thông AI hiện đại.
Các thành phần triển khai:
- Các agent Trí tuệ nhân tạo hội thoại của ElevenLabs
- Giao thức 'truyền dữ liệu qua âm thanh' ggwave
- Chức năng gọi công cụ của LLM
Phát Minh Lại Bánh Xe, Nhưng Chậm Hơn
Buổi trình diễn, cho thấy các AI agent chuyển sang giao thức cấp âm thanh sau khi nhận ra nhau, đã vấp phải chỉ trích vì về cơ bản là tái phát minh modem với hiệu suất kém hơn đáng kể. Giao thức ggwave được triển khai chỉ hoạt động ở mức 8-16 byte mỗi giây, kém xa so với khả năng của modem Bell 103 năm 1963 đạt 37 byte mỗi giây. Khoảng cách hiệu suất đáng kể này đã dẫn đến các cuộc thảo luận về giá trị thực tiễn của những triển khai như vậy trong thời đại kết nối internet phổ biến.
Thật hơi đáng buồn khi phát minh lại modem nhưng kém hiệu quả gấp 10.000 lần.
So sánh Tốc độ Truyền Dữ liệu:
- GibberLink (ggwave): 8-16 byte/giây
- Modem Bell 103 (1963): 37 byte/giây
Đề Xuất Các Giải Pháp Thay Thế
Các chuyên gia kỹ thuật từ cộng đồng đã đề xuất một số giải pháp thay thế hiệu quả hơn cho cách triển khai hiện tại. Giải pháp được đề xuất phổ biến nhất liên quan đến việc trao đổi thông tin điểm cuối hoặc ID cuộc hội thoại duy nhất khi các AI agent nhận diện nhau, sau đó chuyển sang các kênh giao tiếp trực tiếp dựa trên internet. Phương pháp này sẽ loại bỏ nhu cầu truyền dữ liệu dựa trên âm thanh kém hiệu quả trong khi vẫn duy trì khả năng cho các AI agent nhận diện và giao tiếp với nhau.
Nhu Cầu Tiêu Chuẩn Hóa
Một điểm quan trọng nổi lên từ cuộc thảo luận liên quan đến nhu cầu về các giao thức tiêu chuẩn hóa cho giao tiếp giữa các AI agent. Mặc dù cách triển khai hiện tại có thể không tối ưu, cộng đồng nhận thấy tầm quan trọng của việc thiết lập tài liệu chính thức cho quá trình bắt tay và chuyển đổi giao thức giữa các AI. Việc tiêu chuẩn hóa này sẽ cho phép giao tiếp hiệu quả và đáng tin cậy hơn giữa các AI agent trên các nền tảng và triển khai khác nhau.
Vấn Đề Bảo Mật và Xem Xét Thực Tiễn
Buổi trình diễn cũng đặt ra câu hỏi về các tình huống thực tế mà giao tiếp dựa trên âm thanh như vậy sẽ là cần thiết, xét đến sự phổ biến của kết nối internet. Một số thành viên cộng đồng chỉ ra rằng trong hầu hết các trường hợp có thể giao tiếp bằng giọng nói, thì truy cập internet cũng sẽ có sẵn, làm cho giao thức âm thanh trở nên thừa thãi.
Cuộc thảo luận xung quanh GibberLink như một lời nhắc nhở rằng mặc dù đổi mới trong giao tiếp AI là quan trọng, nhưng điều cần thiết là xem xét các công nghệ hiện có và tiêu chuẩn hiệu quả khi phát triển các giải pháp mới. Khi AI tiếp tục phát triển, trọng tâm nên là tạo ra các phương pháp giao tiếp thực tế, hiệu quả và tiêu chuẩn hóa giữa các AI agent.
Tham khảo: GibberLink: A Demo of Two Conversational AI Agents Switching from English to Sound-Level Protocol
![]() |
---|
Minh họa về các tác nhân AI đang giao tiếp và đặt câu hỏi về hiệu quả của giao thức giao tiếp dựa trên âm thanh của họ |