Certaines des technologies derrière SAM 3D qui m'excitent particulièrement : 1⃣ Les ensembles de données 3D existants (Objaverse-XL, ProcTHOR, etc.) sont excellents pour enseigner les "prior 3D" (forme et apparence de base). Mais ils ne suffisent pas à combler entièrement le fossé avec le monde réel, où les scènes sont encombrées, les objets sont occlus, minuscules et généralement en désordre. 2⃣ Entrez dans notre moteur de données 3D avec modèle en boucle : le modèle ➜ prédit le 3D à partir d'images réelles ➜ les humains vérifient rapidement les bons candidats (oui/non seulement) ➜ le 3D vérifié retourne dans l'entraînement ➜ le modèle amélioré réintègre la boucle. Un cycle vertueux qui améliore la qualité de l'annotation 3D, la vitesse de labellisation et la performance du modèle, sans nécessiter d'outils 3D ou d'expertise en design. 3⃣ Les objectifs 3D sont délicats : aucune perte différentiable en forme fermée ne capture pleinement la "bonne 3Dness" (symétries, douceur, complétude). Nous empruntons donc au livre de jeu des LLM et post-entrainons avec des données de préférence humaine. Cet alignement n'apparaît guère dans les métriques (qui héritent des mêmes limitations que les pertes) mais il améliore considérablement la qualité perçue des sorties 3D. Plus de détails dans le document.