Algumas das tecnologias por trás do SAM 3D que me deixam particularmente entusiasmado: 1⃣ Os conjuntos de dados 3D existentes (Objaverse-XL, ProcTHOR, etc.) são ótimos para ensinar "priors 3D" (forma e aparência básicas). Mas não são suficientes para preencher totalmente a lacuna com o mundo real, onde as cenas são desordenadas, os objetos estão ocultos, são pequenos e, em geral, bagunçados. 2⃣ Apresentamos nosso motor de dados 3D com modelo em loop: modelo ➜ prevê 3D a partir de imagens reais ➜ humanos rapidamente verificam bons candidatos (sim/não apenas) ➜ 3D verificado volta para o treinamento ➜ modelo melhorado reentra no loop. Um ciclo virtuoso que aumenta a qualidade da anotação 3D, a velocidade de rotulagem e o desempenho do modelo, sem exigir ferramentas 3D ou expertise em design. 3⃣ Os objetivos 3D são complicados: nenhuma perda diferenciável em forma fechada captura totalmente a "boa 3Dness" (simetrias, suavidade, completude). Portanto, pegamos emprestado do manual de LLM e fazemos um pós-treinamento com dados de preferência humana. Este alinhamento dificilmente aparece nas métricas (que herdam as mesmas limitações das perdas), mas melhora dramaticamente a qualidade percebida das saídas 3D. Mais detalhes no artigo.