LiveSplat: Kỹ thuật Gaussian Splatting thời gian thực mở ra bước tiến mới trong dựng hình 3D

BigGo Editorial Team
LiveSplat: Kỹ thuật Gaussian Splatting thời gian thực mở ra bước tiến mới trong dựng hình 3D

Trong thế giới dựng hình 3D và thị giác máy tính đang phát triển nhanh chóng, một công nghệ mới có tên LiveSplat đang tạo ra tiếng vang lớn. Thuật toán đổi mới này cho phép thực hiện Gaussian splatting theo thời gian thực bằng cách sử dụng luồng camera RGBD, có khả năng biến đổi cách chúng ta hình dung và tương tác với môi trường 3D.

Phá vỡ rào cản tốc độ trong Gaussian Splatting

Các phương pháp Gaussian splatting truyền thống thường đòi hỏi hàng giờ xử lý để tạo ra các cảnh 3D chân thực từ hình ảnh 2D. LiveSplat, được phát triển bởi Mark Liu, áp dụng một cách tiếp cận hoàn toàn khác bằng cách tận dụng dữ liệu độ sâu để tạo ra các biểu diễn này chỉ trong 33 mili giây mỗi khung hình. Đây là một bước tiến vượt bậc, mở ra khả năng ứng dụng thời gian thực trước đây được cho là không thể với kỹ thuật dựng hình này.

Tôi hình dung chúng ta sẽ có thể có chỗ ngồi hàng đầu ảo tại bất kỳ sự kiện trực tiếp nào, và nhiều ứng dụng khác mà chúng ta chưa nghĩ tới.

Công nghệ này hoạt động bằng cách đưa dữ liệu RGBD (RGB + Độ sâu) từ tối đa bốn camera vào một mạng neural tạo ra đầu ra Gaussian splat. Không giống như kỹ thuật dựng hình đám mây điểm truyền thống, vốn thường gặp phải các hiện tượng thị giác không mong muốn và đối tượng trong suốt, LiveSplat tạo ra các hình ảnh 3D mạch lạc hơn với khả năng dựng hình kết cấu, xử lý che khuất và hiệu ứng phụ thuộc góc nhìn được cải thiện.

Những thỏa hiệp kỹ thuật để đạt hiệu suất thời gian thực

Để đạt được tốc độ đáng kinh ngạc, LiveSplat thực hiện một số thỏa hiệp kỹ thuật so với phương pháp Gaussian splatting truyền thống. Nhà phát triển thừa nhận rằng hệ thống có khả năng hạn chế trong việc điều chỉnh lại vị trí và kích thước của các splat do ngân sách tính toán hạn hẹp, điều này có thể dẫn đến một số hiệu ứng pixel hóa.

Không giống như các phương pháp thông thường sử dụng quy trình tối ưu hóa dựa trên gradient mất vài phút hoặc vài giờ, LiveSplat sử dụng mạng neural để chuyển đổi trực tiếp đầu vào RGBD và thông tin vị trí camera thành đầu ra Gaussian splat. Điều này bỏ qua quy trình tối ưu hóa tốn thời gian bằng cách tận dụng thông tin hình học đã có sẵn trong kênh độ sâu.

Mạng neural được đào tạo bằng một phương pháp học có giám sát thông minh: với bốn camera có sẵn, ba camera sẽ được sử dụng làm đầu vào trong khi camera thứ tư đóng vai trò là sự thật nền. Điều này cho phép hệ thống học các hiệu ứng phụ thuộc góc nhìn và nội suy giữa các góc camera.

Yêu cầu hệ thống cho LiveSplat

  • Python 3.12+
  • Windows hoặc Ubuntu (các bản phân phối Linux khác chưa được kiểm tra)
  • CPU x86_64
  • Card đồ họa Nvidia
  • Một đến bốn cảm biến RGBD

Những khác biệt kỹ thuật chính so với phương pháp Gaussian Splatting truyền thống

  • Thời gian xử lý 33ms so với phải mất nhiều phút/giờ của các phương pháp truyền thống
  • Sử dụng mạng neural thay vì tối ưu hóa dựa trên gradient
  • Tận dụng đầu vào RGBD để bỏ qua quá trình tái tạo hình học tốn thời gian
  • Triển khai mã nguồn đóng với phân phối dạng nhị phân
  • Khả năng xử lý thời gian thực với từng khung hình

Ý nghĩa và ứng dụng trong tương lai

Phản hồi của cộng đồng đối với LiveSplat nhấn mạnh tiềm năng quan trọng của nó trong thế giới đồ họa. Nhiều người xem đây là bước đệm hướng tới những trải nghiệm ảo đắm chìm hơn, với các ứng dụng từ hiện diện từ xa trong VR đến phát sóng sự kiện trực tiếp.

Mặc dù hiện tại là mã nguồn đóng (được phân phối dưới dạng các gói nhị phân cho Windows và Ubuntu), LiveSplat đại diện cho một cột mốc quan trọng trong việc làm cho các kỹ thuật dựng hình tiên tiến trở nên dễ tiếp cận cho các ứng dụng thời gian thực. Công nghệ này có thể hoạt động qua mạng IP, với nhà phát triển lưu ý rằng trong khi nén RGB là một vấn đề đã được giải quyết, nén kênh độ sâu đòi hỏi sự xem xét đặc biệt.

Nhìn về phía trước, tích lũy thời gian có vẻ là bước phát triển hợp lý tiếp theo, điều này có thể nâng cao hơn nữa chất lượng hình ảnh trong khi vẫn duy trì hiệu suất thời gian thực. Khi các kỹ thuật Gaussian splatting tiếp tục phát triển, chúng ta có thể thấy chúng trở thành nền tảng cho một thế hệ mới của các công cụ tạo và tiêu thụ phương tiện 3D tương tác.

Tham khảo: LiveSplat