Mô hình AI WHAMM của Microsoft chạy Quake II trên trình duyệt với đồ họa sinh thành thời gian thực

BigGo Editorial Team
Mô hình AI WHAMM của Microsoft chạy Quake II trên trình duyệt với đồ họa sinh thành thời gian thực

Microsoft đã có một bước tiến táo bạo trong lĩnh vực trò chơi điện tử được hỗ trợ bởi AI với mô hình thử nghiệm mới nhất của họ, mô hình này có thể thay đổi cách các trò chơi cổ điển được hiển thị trong tương lai. Gã khổng lồ công nghệ này đã giới thiệu một phương pháp mới cho thấy cả tiềm năng và những hạn chế hiện tại của AI sinh thành trong lĩnh vực giải trí tương tác.

WHAMM: Mô hình AI trò chơi mới của Microsoft

Microsoft gần đây đã công bố WHAMM (World and Human Action MaskGIT Model), một hệ thống AI sinh thành được thiết kế đặc biệt cho các ứng dụng trò chơi thời gian thực. Mô hình mới này đại diện cho một bước tiến đáng kể so với phiên bản tiền nhiệm WHAM-1.6B, được phát hành vào tháng Hai. Minh chứng ấn tượng nhất cho khả năng của WHAMM là một phiên bản có thể chơi được của trò chơi cổ điển Quake II ra mắt cách đây 28 năm, người dùng có thể trải nghiệm trực tiếp trên trình duyệt web thông qua Copilot Labs. Mặc dù công nghệ này vẫn đang trong giai đoạn thử nghiệm, nó cho thấy AI có thể cuối cùng sẽ chuyển đổi trải nghiệm chơi game bằng cách tạo ra nội dung hình ảnh theo thời gian thực dựa trên tương tác của người chơi.

Giao diện AI WHAMM cho việc tạo game theo thời gian thực trong Quake II
Giao diện AI WHAMM cho việc tạo game theo thời gian thực trong Quake II

Đổi mới kỹ thuật đằng sau WHAMM

Đổi mới kỹ thuật chính trong WHAMM nằm ở việc nó không sử dụng các mô hình tự hồi quy truyền thống, vốn tạo ra các token một cách tuần tự. Thay vào đó, WHAMM sử dụng kiến trúc kiểu MaskGIT có thể tạo ra tất cả các token hình ảnh cho một khung hình song song. Sự thay đổi kiến trúc này giảm đáng kể số lượng forward pass cần thiết và giảm sự phụ thuộc giữa các phần tử, cho phép đầu ra hình ảnh nhanh hơn, tiệm cận với khả năng phản hồi thời gian thực. Độ phân giải cũng đã được cải thiện từ 300 x 180 pixel của mô hình trước đến 640 x 360 pixel chi tiết hơn, cung cấp hình ảnh rõ ràng hơn trong khi vẫn duy trì kiến trúc encoder-decoder cơ bản.

Kiến trúc kỹ thuật của mô hình WHAM thể hiện thiết kế đổi mới của nó
Kiến trúc kỹ thuật của mô hình WHAM thể hiện thiết kế đổi mới của nó

Quy trình đào tạo được đẩy nhanh

Có lẽ điều đáng chú ý nhất là việc giảm đáng kể thời gian đào tạo cần thiết cho WHAMM. Trong khi mô hình WHAM-1.6B trước đây cần bảy năm dữ liệu gameplay để đào tạo, các nhà phát triển đã dạy WHAMM chỉ với hơn một tuần gameplay Quake II được tuyển chọn. Hiệu quả này đạt được nhờ tận dụng dữ liệu từ các chuyên gia kiểm thử trò chơi chuyên nghiệp, những người chỉ tập trung vào một cấp độ duy nhất của trò chơi. Đây là một bước tiến đáng kể trong hiệu quả đào tạo mô hình AI, có khả năng làm cho các hệ thống tương tự trở nên thực tế hơn để phát triển trong tương lai.

Hạn chế hiện tại và trải nghiệm người dùng

Mặc dù có những tiến bộ này, WHAMM vẫn đang ở giai đoạn thử nghiệm. Bản demo chạy ở tốc độ khung hình cực kỳ thấp, chỉ đạt mức thấp đến trung bình của những năm teen, và bị độ trễ đầu vào đáng chú ý. Microsoft nhấn mạnh rằng bản demo nên được xem như một trình diễn công nghệ hơn là một sản phẩm trò chơi hoàn chỉnh. Người chơi có thể thực hiện các hành động cơ bản như bắn, nhảy, ngồi xuống và tương tác với kẻ thù, nhưng trải nghiệm bị cản trở bởi nhiều hạn chế. Tương tác với kẻ thù xuất hiện mờ, theo dõi sức khỏe và thống kê thiệt hại thường không chính xác, và mô hình có độ dài ngữ cảnh hạn chế—quên các đối tượng rời khỏi tầm nhìn của người chơi trong hơn chín phần mười giây. Ngoài ra, bản demo chỉ giới hạn trong một cấp độ duy nhất, vì việc cố gắng tiến xa hơn sẽ làm đóng băng quá trình tạo hình ảnh do thiếu dữ liệu đào tạo được ghi lại.

Thông số kỹ thuật của WHAMM:

  • Độ phân giải: 640 x 360 pixel (tăng từ 300 x 180 ở mô hình trước)
  • Kiến trúc: Tạo token song song kiểu MaskGIT
  • Dữ liệu huấn luyện: Một tuần gameplay được tuyển chọn từ Quake II (giảm từ bảy năm ở mô hình trước)
  • Hạn chế hiện tại: Tốc độ khung hình thấp (FPS ở mức thấp đến trung bình, khoảng 10-19), độ trễ đầu vào cao, bộ nhớ ngữ cảnh hạn chế (0,9 giây), giới hạn trong một cấp độ duy nhất

AI trong các ngành công nghiệp sáng tạo: Tăng cường so với thay thế

WHAMM xuất hiện giữa những cuộc thảo luận rộng rãi hơn về vai trò của AI trong các ngành công nghiệp sáng tạo. Những tranh cãi gần đây, chẳng hạn như các sáng tạo AI lấy cảm hứng từ Ghibli của OpenAI, đã làm nổi bật sự hoài nghi của công chúng về việc liệu AI có thể thực sự sao chép nghệ thuật của con người hay không. Microsoft định vị WHAMM không phải là sự thay thế cho sáng tạo của con người mà là một công cụ để tăng cường nó—một triết lý tương tự như công nghệ ACE của Nvidia, công nghệ này nâng cao các NPC sống động trong các trò chơi như inZOI. Việc triển khai lý tưởng sẽ thấy AI tăng cường chứ không phải thay thế các tác phẩm sáng tạo, thêm các yếu tố động trong khi vẫn giữ được nét đặc trưng của con người làm cho các trò chơi trở nên hấp dẫn.

Ý nghĩa tương lai cho phương tiện truyền thông tương tác

Nhìn về phía trước, Microsoft hình dung WHAMM và các công nghệ tương tự sẽ cho phép các hình thức phương tiện truyền thông tương tác hoàn toàn mới. Mặc dù các trò chơi được tạo ra hoàn toàn bởi AI vẫn đang ở chân trời xa hơn là một thực tế ngay lập tức, những đổi mới như WHAMM cho thấy chúng có thể xuất hiện trong vài năm tới. Các phiên bản trong tương lai có khả năng sẽ giải quyết những thiếu sót hiện tại trong khi trao quyền cho các nhà phát triển trò chơi để tạo ra các câu chuyện hấp dẫn hơn được làm phong phú bởi các công cụ do AI điều khiển. Công nghệ này đại diện cho một cái nhìn thú vị về cách AI sinh thành có thể cuối cùng chuyển đổi không chỉ cách các trò chơi trông như thế nào, mà còn cách chúng hoạt động và phản ứng với hành động của người chơi.