Niektóre z technologii stojących za SAM 3D, które szczególnie mnie ekscytują: 1⃣ Istniejące zbiory danych 3D (Objaverse-XL, ProcTHOR itp.) są świetne do nauki „priorytetów 3D” (podstawowe kształty i wygląd). Ale nie wystarczają, aby w pełni zniwelować różnicę do rzeczywistego świata, gdzie sceny są zagracone, obiekty są zasłonięte, małe i ogólnie chaotyczne. 2⃣ Wprowadź nasz silnik danych 3D z modelem w pętli: model ➜ przewiduje 3D z rzeczywistych obrazów ➜ ludzie szybko weryfikują dobre kandydaty (tak/nie) ➜ zweryfikowane 3D wraca do treningu ➜ ulepszony model ponownie wchodzi do pętli. Cykliczny proces, który zwiększa jakość adnotacji 3D, szybkość etykietowania i wydajność modelu, bez potrzeby korzystania z narzędzi 3D lub wiedzy projektowej. 3⃣ Cele 3D są trudne: żadna zamknięta forma różniczkowej straty w pełni nie uchwyca „dobrej 3Dności” (symetrie, gładkość, kompletność). Dlatego czerpiemy z podręcznika LLM i przeprowadzamy dodatkowe szkolenie z danymi preferencji ludzkich. To dopasowanie rzadko pojawia się w metrykach (które dziedziczą te same ograniczenia co straty), ale dramatycznie poprawia postrzeganą jakość wyjść 3D. Więcej szczegółów w artykule.