Mô hình Visual Geometry Grounded Transformer (VGGT) mới được phát hành bởi Facebook Research đang tạo ra sự phấn khích đáng kể trong cộng đồng tái tạo 3D nhờ khả năng nhanh chóng tạo ra các cảnh 3D từ những bức ảnh thông thường. Không giống như các phương pháp photogrammetry truyền thống đòi hỏi thời gian xử lý dài, VGGT có thể tạo ra các mô hình 3D chi tiết từ chỉ vài hình ảnh trong vòng vài giây.
![]() |
---|
Một ảnh chụp màn hình của GitHub repository cho Visual Geometry Grounded Transformer (VGGT) của Facebook Research, thể hiện bản chất mã nguồn mở của nó |
Phương Pháp Tiếp Cận Dựa Trên Transformer Cho Tái Tạo 3D
VGGT đại diện cho một bước chuyển đáng kể so với các quy trình tái tạo 3D thông thường. Thay vì dựa vào các giai đoạn riêng biệt để ước tính vị trí camera, tính toán độ sâu và tạo đám mây điểm, VGGT xử lý tất cả trong một lần chuyển tiếp duy nhất thông qua kiến trúc transformer của nó. Các thành viên trong cộng đồng đã lưu ý rằng điều này có thể thay thế COLMAP, công cụ tiêu chuẩn của ngành mà dù chính xác nhưng nổi tiếng chậm và đòi hỏi nhiều hình ảnh chất lượng cao.
Tôi đoán rằng công nghệ này sẽ được áp dụng vào nhiều quy trình làm việc, thay thế hàng loạt các quy trình ghép nối phức tạp hiện tại.
Mô hình đạt được điều này bằng cách sử dụng kiến trúc transformer tiêu chuẩn với cơ chế chú ý theo khung hình và toàn cầu xen kẽ, được đào tạo trên một tập dữ liệu khổng lồ các hình ảnh được chú thích 3D. Điều đặc biệt ấn tượng là VGGT không kết hợp các định kiến quy nạp 3D chuyên biệt trong thiết kế của nó, mà thay vào đó học các mối quan hệ này hoàn toàn từ dữ liệu.
Các tính năng chính của VGGT
- Suy luận trực tiếp các thông số camera, bản đồ độ sâu, bản đồ điểm và các đường dẫn điểm 3D
- Hoạt động với ít nhất 1 hình ảnh hoặc nhiều đến hàng trăm hình ảnh
- Thời gian xử lý từ vài mili giây đến vài giây
- Không yêu cầu kiến trúc mạng 3D chuyên biệt
- Được đào tạo trên nhiều bộ dữ liệu đa dạng bao gồm Co3Dv2, BlendMVS, MegaDepth, và dữ liệu tổng hợp
- Kích thước mô hình: 1 tỷ tham số (với các phiên bản nhỏ hơn đang được lên kế hoạch)
- Chi phí đào tạo: 64 GPU A100 trong chín ngày (~18.000 USD)
Ứng Dụng Thực Tế Nổi Lên Từ Thảo Luận Cộng Đồng
Các cuộc thảo luận trong cộng đồng cho thấy nhiều ứng dụng thực tế cho VGGT. Trực quan hóa kiến trúc nổi bật như một trường hợp sử dụng chính, nơi các mô hình 3D nhanh chóng có thể đơn giản hóa đáng kể quy trình thiết kế cải tạo nhà. Các ứng dụng y tế cũng đầy hứa hẹn, với một người bình luận mô tả công việc trên hệ thống phẫu thuật chỉnh hình theo dõi các công cụ phẫu thuật trong không gian bằng phần cứng giá rẻ như iPhone.
Có lẽ điều thú vị nhất là tiềm năng tích hợp của VGGT với Gaussian Splatting, một kỹ thuật kết xuất tiên tiến. Một số người bình luận lưu ý rằng VGGT có thể cung cấp cấu trúc cảnh ban đầu cho quy trình Gaussian Splatting, có khả năng loại bỏ nhu cầu xử lý COLMAP chậm chạp. Bài báo chính nó đề cập đến các thí nghiệm tinh chỉnh cho tổng hợp góc nhìn mới, cho thấy con đường tích hợp này đã được khám phá.
Hạn Chế và Chi Phí Đào Tạo
Mặc dù có kết quả ấn tượng, các thành viên cộng đồng bày tỏ một số hoài nghi về hiệu suất của VGGT trên các cảnh mới so với các địa danh nổi tiếng có thể đã xuất hiện trong dữ liệu đào tạo. Các ví dụ về kim tự tháp Ai Cập và Đấu trường La Mã được hiển thị trong các bản demo đã đặt ra câu hỏi về khả năng khái quát hóa của mô hình đối với môi trường thực sự chưa từng thấy.
Tài nguyên tính toán cần thiết để đào tạo VGGT là đáng kể. Theo bài báo, mô hình cuối cùng với một tỷ tham số được đào tạo trên 64 GPU NVIDIA A100 trong chín ngày, chi phí khoảng 18.000 đô la Mỹ trên các nền tảng đám mây thương mại. Điều này đại diện cho cái mà một số người bình luận gọi là Bài học Cay đắng của AI hiện đại - việc mở rộng quy mô tính toán và dữ liệu thường vượt trội hơn thiết kế thuật toán thông minh.
Các Chỉ số Hiệu suất của VGGT
Khung hình đầu vào | 1 | 2 | 4 | 8 | 10 | 20 | 50 | 100 | 200 |
---|---|---|---|---|---|---|---|---|---|
Thời gian (giây) | 0.04 | 0.05 | 0.07 | 0.11 | 0.14 | 0.31 | 1.04 | 3.12 | 8.75 |
Bộ nhớ (GB) | 1.88 | 2.07 | 2.45 | 3.23 | 3.63 | 5.58 | 11.41 | 21.15 | 40.63 |
Đánh giá trên một GPU NVIDIA H100 sử dụng Flash Attention 3
Tương Lai của Tái Tạo 3D
Việc phát hành VGGT đánh dấu một cột mốc quan trọng trong việc làm cho tái tạo 3D dễ tiếp cận hơn. Trong khi các công cụ photogrammetry chuyên nghiệp vẫn cung cấp lợi thế về độ chính xác, tốc độ và dễ sử dụng của VGGT mở ra những khả năng mới cho các ứng dụng mà kết quả nhanh có giá trị hơn độ chính xác hoàn hảo.
Một người bình luận đề xuất rằng cách tiếp cận lý tưởng có thể kết hợp VGGT với photogrammetry truyền thống thay vì thay thế hoàn toàn - sử dụng AI để lấp đầy khoảng trống trong quét và nâng cao kết quả. Cách tiếp cận kết hợp này có thể đặc biệt có giá trị cho các máy quét 3D dựa trên điện thoại, nơi việc thu thập dữ liệu hoàn hảo là thách thức.
Khi các thí nghiệm tinh chỉnh bắt đầu trên phần cứng tiêu dùng, chúng ta có thể mong đợi sự đổi mới nhanh chóng trong lĩnh vực này trong những tháng tới, có khả năng chuyển đổi quy trình làm việc trên nhiều ngành công nghiệp từ trò chơi và VR đến kiến trúc và hình ảnh y tế.
Tham khảo: VGGT: Visual Geometry Grounded Transformer