Деякі технології, що лежать в основі SAM 3D, які мене особливо захоплюють: 1⃣ Існуючі 3D-набори даних (Objaverse-XL, ProcTHOR тощо) чудово підходять для навчання «3D-апріорам» (базова форма та зовнішній вигляд). Але цього недостатньо, щоб повністю подолати розрив із реальним світом, де сцени захаращені, об'єкти закриті, крихітні й загалом безладні. 2⃣На сцену з'являється наш 3D-движок даних «модель у циклі»: модель ➜ прогнозує 3D з реальних зображень ➜ люди швидко відбирають хороших кандидатів (лише так/ні) ➜ перевірена 3D повертається до навчання ➜ покращена модель знову входить у цикл. Доброчесний цикл, який підвищує якість 3D-анотації, швидкість маркування та продуктивність моделі, не потребуючи 3D-інструментів чи дизайнерських знань. 3⃣3D-цілі складні: жоден закритий диференційований втрат повністю не відображає «хорошу тривимірність» (симетрії, плавність, повноту). Тому ми запозичуємо з підручника LLM і після навчання з даними людських уподобань. Це узгодження майже не відображається в метриках (які мають ті ж обмеження, що й втрати), але значно покращує сприйняту якість 3D-виходів. Більше деталей у статті.