Apple Phát Hành Bộ Dữ Liệu CA-1M và Cubify Transformer cho Nhận Diện Đối Tượng 3D với Phản Ứng Trái Chiều từ Cộng Đồng

BigGo Editorial Team
Apple Phát Hành Bộ Dữ Liệu CA-1M và Cubify Transformer cho Nhận Diện Đối Tượng 3D với Phản Ứng Trái Chiều từ Cộng Đồng

Apple đã phát hành CA-1M, một bộ dữ liệu toàn diện cho nhận diện đối tượng 3D trong nhà, cùng với Cubify Transformer (CuTR), một mô hình được thiết kế để phát hiện và đặt các khung hình 3D xung quanh các đối tượng trong không gian nội thất. Mặc dù công nghệ này cho thấy tiềm năng cho các ứng dụng AR/VR, phản hồi từ cộng đồng cho thấy cả sự phấn khích về khả năng của nó lẫn lo ngại về các hạn chế trong giấy phép sử dụng.

Tổng quan về Bộ dữ liệu CA-1M & Cubify Transformer

  • Bộ dữ liệu: CA-1M - Được chú thích đầy đủ với các hộp 3D không phân loại
  • Mô hình: Cubify Transformer (CuTR) - Có sẵn ở dạng RGB-D và chỉ RGB
  • Cấu trúc giấy phép:
    • Mã nguồn mẫu: Giấy phép Mã nguồn Mẫu của Apple
    • Bộ dữ liệu: CC-by-NC-ND
    • Các mô hình: Điều khoản Sử dụng Mô hình Nghiên cứu ML của Apple

Tính năng chính:

  • Ground-truth hộp 3D cho từng khung hình
  • Các tư thế GT được đăng ký với máy quét laser
  • Độ sâu GT ở độ phân giải 512 x 384
  • Các khung hình định hướng thẳng đứng
  • Hỗ trợ chạy trên dữ liệu thu được từ thiết bị người dùng thông qua ứng dụng NeRF Capture
Một không gian nội thất có thể hưởng lợi từ công nghệ phát hiện đối tượng 3D tiên tiến cho thiết kế nhà và ứng dụng AR
Một không gian nội thất có thể hưởng lợi từ công nghệ phát hiện đối tượng 3D tiên tiến cho thiết kế nhà và ứng dụng AR

Cấu Trúc Cấp Phép Phức Tạp Gây Nhầm Lẫn

Cách tiếp cận cấp phép của dự án đã làm dấy lên cuộc thảo luận đáng kể giữa các nhà phát triển. Apple đã triển khai cấu trúc cấp phép nhiều tầng: mã mẫu theo Giấy phép Mã Mẫu Apple, bộ dữ liệu theo CC-by-NC-ND, và các mô hình theo Điều khoản Sử dụng Mô hình Nghiên cứu ML của Apple. Cách tiếp cận phân mảnh này đã nhận được nhiều chỉ trích từ cộng đồng nhà phát triển.

Họ làm phức tạp hóa bằng cách sử dụng 3-4 giấy phép (phụ) khác nhau trong một dự án... tại sao lại làm cho nó rối rắm và phức tạp như vậy? Điều này thật vô ích cho các nhà phát triển bên thứ ba khi tạo ứng dụng và phát hành trên nền tảng của họ.

Giấy phép Attribution-NonCommercial-NoDerivatives cho bộ dữ liệu đặc biệt hạn chế, giới hạn các ứng dụng thương mại tiềm năng. Một số người bình luận lưu ý rằng sự phức tạp trong cấp phép này có thể cản trở việc áp dụng và thử nghiệm rộng rãi hơn với công nghệ.

Hiệu Suất Kỹ Thuật Đặt Ra Câu Hỏi

Phản hồi từ cộng đồng về hiệu suất kỹ thuật của Cubify Transformer khá trái chiều. Một số người dùng đã chỉ ra các vấn đề về độ chính xác trong phát hiện khung hình, đặc biệt là với các đối tượng như tranh ảnh trên tường và dầm trần. Một người bình luận lưu ý rằng mô hình thường không sử dụng [các khối lập phương xoay] khi cần thiết, dẫn đến việc phóng đại ranh giới, cho thấy hệ thống đôi khi gặp khó khăn với việc căn chỉnh đối tượng đúng cách.

Thú vị là, một số nhà phát triển tuyên bố đã thấy hiệu suất tốt hơn từ các mạng nơ-ron riêng chạy trên iPad chỉ sử dụng dữ liệu RGB mà không cần thông tin độ sâu. Điều này đặt ra câu hỏi liệu các phương pháp dựa trên transformer có tối ưu cho nhiệm vụ thị giác máy tính cụ thể này hay không.

Ứng Dụng Thực Tế cho Thiết Kế Nhà

Mặc dù có những lo ngại về kỹ thuật và cấp phép, nhiều người dùng thấy tiềm năng ứng dụng có giá trị cho công nghệ này. Một trong những trường hợp sử dụng thuyết phục nhất được thảo luận là thiết kế nhà và sắp xếp nội thất. Người dùng bày tỏ sự quan tâm đến việc quét nhà của họ bằng camera điện thoại và LiDAR để tạo mô hình 3D nơi nội thất có thể được sắp xếp lại ảo.

Các giải pháp hiện tại như Scaniverse tạo ra các lưới hoàn chỉnh nhưng không tách biệt các đối tượng riêng lẻ, làm cho việc sắp xếp lại ảo trở nên khó khăn. Phương pháp phát hiện đối tượng của Cubify có thể giải quyết vấn đề này bằng cách xác định các đối tượng riêng biệt trong không gian.

Tích Hợp với Công Nghệ Web

Cộng đồng đã đang khám phá các cách để mở rộng và tích hợp công nghệ này với các nền tảng web. Một số người bình luận đã chia sẻ tài nguyên để hiển thị các bản quét USDZ trong Three.js, một thư viện 3D JavaScript phổ biến, chứng minh hệ sinh thái rộng lớn hơn đang phát triển xung quanh công nghệ quét 3D.

Sự sẵn có của các trình xem và công cụ hiển thị cho thấy các nhà phát triển đang tích cực làm việc để làm cho việc phát hiện và hiển thị đối tượng 3D trở nên dễ tiếp cận hơn trên các nền tảng khác nhau.

Tích Hợp Tương Lai với Nền Tảng Apple

Một số người bình luận đã suy đoán về khả năng tích hợp với các nền tảng của Apple, đặc biệt là Vision Pro. Một người dùng bày tỏ sự ngạc nhiên rằng công nghệ này chưa phải là một phần của CoreML, framework học máy của Apple, trong khi người khác cho rằng nó có thể được công bố tại hội nghị nhà phát triển WWDC sắp tới.

Với sự tập trung ngày càng tăng của Apple vào trải nghiệm thực tế tăng cường, Cubify Transformer có thể đại diện cho một khối xây dựng quan trọng cho các ứng dụng AR trong tương lai trên các thiết bị Apple, có khả năng cho phép hiểu biết môi trường và tương tác đối tượng tinh vi hơn.

Tóm lại, mặc dù bộ dữ liệu CA-1M và công nghệ Cubify Transformer của Apple cho thấy tiềm năng trong việc thúc đẩy nhận diện đối tượng 3D, nhưng việc cấp phép hạn chế và đánh giá hiệu suất trái chiều làm nổi bật những thách thức có thể hạn chế việc áp dụng nó. Tuy nhiên, công nghệ này đại diện cho một bước tiến quan trọng hướng tới sự hiểu biết môi trường tinh vi hơn cho các ứng dụng AR/VR, với những ảnh hưởng tiềm tàng đối với thiết kế nhà, trò chơi và trải nghiệm thực tế hỗn hợp.

Tham khảo: CA-1M and Cubify Anything