Một số công nghệ đằng sau SAM 3D mà tôi đặc biệt hào hứng: 1⃣ Các tập dữ liệu 3D hiện có (Objaverse-XL, ProcTHOR, v.v.) rất tốt để dạy "các tiền đề 3D" (hình dạng và diện mạo cơ bản). Nhưng chúng không đủ để hoàn toàn thu hẹp khoảng cách với thế giới thực, nơi mà các cảnh vật lộn xộn, các đối tượng bị che khuất, nhỏ bé và thường thì rất bừa bộn. 2⃣ Giới thiệu động cơ dữ liệu 3D mô hình-trong-vòng lặp của chúng tôi: mô hình ➜ dự đoán 3D từ hình ảnh thực ➜ con người nhanh chóng kiểm tra các ứng viên tốt (có/không chỉ) ➜ 3D đã được kiểm tra quay lại quá trình đào tạo ➜ mô hình cải thiện quay lại vòng lặp. Một chu trình tốt đẹp giúp nâng cao chất lượng chú thích 3D, tốc độ gán nhãn và hiệu suất mô hình, mà không cần các công cụ 3D hay chuyên môn thiết kế. 3⃣ Các mục tiêu 3D rất khó khăn: không có hàm mất mát phân biệt đóng nào hoàn toàn nắm bắt được "độ tốt 3D" (đối xứng, độ mượt mà, tính hoàn chỉnh). Vì vậy, chúng tôi mượn từ sách hướng dẫn LLM và huấn luyện sau với dữ liệu sở thích của con người. Sự căn chỉnh này hầu như không xuất hiện trong các chỉ số (mà thừa hưởng những hạn chế tương tự như các hàm mất mát) nhưng nó cải thiện đáng kể chất lượng cảm nhận của các đầu ra 3D. Thêm chi tiết trong bài báo.