Veo 3 của Google Thêm Giọng Nói vào Video AI, Tạo Ra Gameplay Fortnite Đáng Kinh Ngạc

BigGo Editorial Team
Veo 3 của Google Thêm Giọng Nói vào Video AI, Tạo Ra Gameplay Fortnite Đáng Kinh Ngạc

Cuộc đua phát triển các công cụ tạo video bằng AI ngày càng tinh vi đã có bước tiến đáng kể với sản phẩm mới nhất của Google. Gã khổng lồ công nghệ này không chỉ tạo ra hình ảnh video vô cùng chân thực mà còn tích hợp khả năng âm thanh đồng bộ, làm dấy lên cả sự phấn khích lẫn lo ngại về tương lai của việc sáng tạo nội dung kỹ thuật số.

Google Giới Thiệu Veo 3 với Khả Năng Tạo Âm Thanh Đồng Bộ

Google đã công bố Veo 3, phiên bản mới nhất của mô hình AI tạo video, tại hội nghị nhà phát triển I/O thường niên. Điều khiến mô hình này nổi bật so với nhiều đối thủ cạnh tranh là khả năng tạo ra âm thanh đồng bộ cùng với nội dung video. Bước đột phá này giải quyết một hạn chế đáng kể của các công cụ tạo video AI trước đây, vốn thường chỉ tạo ra video không có âm thanh. Veo 3 có thể tạo ra âm thanh nền phù hợp với khung cảnh hình ảnh, chẳng hạn như tiếng ồn của một toa tàu điện ngầm đông đúc, và thậm chí có thể tạo ra giọng nói con người theo yêu cầu của người dùng. Mô hình này cũng xuất sắc trong việc mô phỏng vật lý thế giới thực và đồng bộ môi, khiến nó trở thành công cụ tiềm năng cho các nhà làm phim và chuyên gia sáng tạo.

Các tính năng chính của Google's Veo 3:

  • Tạo âm thanh đồng bộ với video
  • Tạo âm thanh môi trường thực tế
  • Khả năng tạo giọng nói con người
  • Mô phỏng vật lý nâng cao
  • Công nghệ đồng bộ hóa môi tiếng nói được cải tiến
  • Có sẵn cho người đăng ký Gemini Ultra tại Hoa Kỳ
  • Tích hợp với công cụ làm phim Flow của Google

Thách Thức Kỹ Thuật của Việc Đồng Bộ Hóa Âm Thanh-Video

Việc tạo ra các mô hình AI có khả năng tạo video và âm thanh đồng bộ đại diện cho một thách thức kỹ thuật đáng gờm. Video bao gồm một chuỗi các khung hình tĩnh, trong khi âm thanh tồn tại dưới dạng sóng liên tục, đòi hỏi các mô hình có thể hoạt động trên các phương thức khác nhau này. Hệ thống cũng phải tính đến một cách linh hoạt các biến số như đặc tính vật liệu, khoảng cách và tốc độ để tạo ra hiệu ứng âm thanh chân thực. Ví dụ, một chiếc xe di chuyển ở các tốc độ khác nhau tạo ra những âm thanh hoàn toàn khác nhau, cũng như một con ngựa đi trên các bề mặt khác nhau. Thành tựu của Google với Veo 3 cho thấy sự tiến bộ đáng kể trong việc giải quyết những vấn đề phức tạp này.

Khả Năng Tiếp Cận và Tích Hợp với Các Công Cụ Google Khác

Veo 3 hiện đã có sẵn cho người đăng ký Gemini Ultra tại Hoa Kỳ. Công nghệ này cũng đã được tích hợp vào Flow, công cụ làm phim được hỗ trợ bởi AI mới của Google, được giới thiệu tại cùng sự kiện I/O. Sự tích hợp này cho thấy chiến lược rộng lớn hơn của Google nhằm mang các công cụ AI thiết thực đến các ngành công nghiệp sáng tạo, có khả năng biến đổi cách thức sản xuất nội dung kỹ thuật số.

Lo Ngại về Nội Dung Giả Mạo Chân Thực

Mặc dù có những khả năng ấn tượng, Veo 3 đã nhanh chóng làm dấy lên lo ngại về khả năng bị lạm dụng. Chỉ trong vài ngày sau khi ra mắt, người dùng đã tạo ra các đoạn clip gameplay Fortnite trông gần như không thể phân biệt với cảnh quay thật, hoàn chỉnh với bình luận của streamer giả. Những video được tạo ra bởi AI này đủ chân thực đến mức người xem bình thường lướt qua mạng xã hội có thể dễ dàng nhầm lẫn chúng với nội dung hợp pháp từ các nền tảng như YouTube hoặc Twitch.

Ảnh Hưởng đến Thông Tin Sai Lệch và Bản Quyền

Khả năng tạo ra những cảnh quay giả mạo thuyết phục như vậy làm dấy lên những câu hỏi nghiêm trọng về thông tin sai lệch và khả năng làm suy giảm niềm tin vào nội dung hợp pháp. Cũng có những lo ngại đáng kể về bản quyền, vì AI dường như đã được đào tạo trên một lượng lớn nội dung hiện có, bao gồm cả trò chơi điện tử như Fortnite, mà không có sự cho phép rõ ràng từ các nhà sáng tạo như Epic Games. Điều này đã làm dấy lên cuộc tranh luận về việc liệu nội dung được tải lên các nền tảng như YouTube có đang được sử dụng để đào tạo các hệ thống AI bất chấp việc được bảo vệ bản quyền hay không.

Các mối quan ngại được nêu ra:

  • Tạo ra nội dung giả mạo với độ chân thực cao
  • Tiềm năng phát tán thông tin sai lệch
  • Hàm ý về bản quyền từ việc đào tạo trên nội dung hiện có
  • Làm suy giảm niềm tin vào các đoạn phim hợp pháp
  • Tác động tiềm tàng đến việc làm trong ngành công nghiệp sáng tạo

Xu Hướng Rộng Lớn Hơn Trong Ngành

Google không đơn độc trong lĩnh vực này. Movie Gen của Meta, được phát hành vào tháng 10, cung cấp các khả năng tương tự, trong khi các công cụ khác như Gen-3 Alpha của Runway cung cấp các tính năng để thêm âm thanh được tạo bởi AI vào video trong quá trình hậu kỳ. Microsoft cũng đã thể hiện sự quan tâm đến cảnh quay trò chơi được tạo bởi AI thông qua chương trình Muse của mình, mà họ gợi ý có thể giúp ích cho việc hình thành ý tưởng và bảo tồn khái niệm trò chơi. Tuy nhiên, những phát triển này đã làm dấy lên cuộc tranh luận về việc liệu các công cụ như vậy có thể cuối cùng thay thế sự sáng tạo của con người hoặc loại bỏ việc làm trong các ngành công nghiệp sáng tạo hay không.

Ảnh Hưởng Tương Lai

Khi video được tạo bởi AI với âm thanh đồng bộ trở nên tinh vi và dễ tiếp cận hơn, xã hội sẽ cần phải đối mặt với những câu hỏi về tính xác thực, bản quyền và khả năng bị lạm dụng. Mặc dù những công cụ này mang lại những khả năng thú vị cho những người sáng tạo nội dung, chúng cũng đòi hỏi những phương pháp mới để xác minh tính xác thực của phương tiện kỹ thuật số và bảo vệ tài sản trí tuệ trong một kỷ nguyên mà nội dung giả mạo ngày càng chân thực có thể được tạo ra chỉ với các lệnh văn bản đơn giản.