Joistakin SAM 3D:n taustalla olevista teknologioista, joista olen erityisen innoissani: 1⃣ Olemassa olevat 3D-aineistot (Objaverse-XL, ProcTHOR jne.) ovat erinomaisia "3D-ennakkojen" (perusmuoto ja ulkonäkö) opettamiseen. Mutta ne eivät riitä täysin kuromaan umpeen kuilua todelliseen maailmaan, jossa kohtaukset ovat sekavaa, esineet tukkeutuneita, pieniä ja yleisesti sotkuisia. 2⃣Tässä astuu mallin mukaan -mallin 3D-datamoottoriimme: malli ➜ ennustaa 3D:tä oikeista kuvista ➜ ihmiset arvioivat nopeasti hyvät ehdokkaat (vain kyllä/ei) ➜ tarkistettu 3D palaa koulutukseen ➜ parannettu malli palaa silmukkaan. Hyveellinen sykli, joka parantaa 3D-annotoinnin laatua, merkintänopeutta ja mallin suorituskykyä ilman 3D-työkaluja tai suunnitteluosaamista. 3⃣3D-tavoitteet ovat hankalia: mikään suljetun muodon differentioituva häviö ei täysin vangitse "hyvää 3D-tasoa" (symmetriat, sileyttä, täydellisyyttä). Joten lainaamme LLM:n käsikirjaa ja harjoittelemme jälkiharjoituksia ihmisten mieltymystietojen kanssa. Tämä kohdistus ei juuri näy mittareissa (jotka perivät samat rajoitukset kuin häviöt), mutta se parantaa dramaattisesti 3D-tulosten koettua laatua. Lisätietoja lehdessä.