Некоторые технологии, связанные с SAM 3D, которые меня особенно радуют: 1⃣ Существующие 3D наборы данных (Objaverse-XL, ProcTHOR и т.д.) отлично подходят для обучения "3D приоритетам" (основные формы и внешний вид). Но их недостаточно, чтобы полностью преодолеть разрыв с реальным миром, где сцены загромождены, объекты скрыты, крошечные и в целом беспорядочные. 2⃣ Вводим наш движок 3D данных с моделью в цикле: модель ➜ предсказывает 3D из реальных изображений ➜ люди быстро проверяют хорошие кандидаты (только да/нет) ➜ проверенные 3D возвращаются в обучение ➜ улучшенная модель снова входит в цикл. Добродетельный цикл, который повышает качество аннотации 3D, скорость маркировки и производительность модели, не требуя 3D инструментов или дизайнерской экспертизы. 3⃣ 3D цели сложны: ни одна закрытая форма дифференцируемой потери полностью не захватывает "хорошесть 3D" (симметрии, гладкость, полнота). Поэтому мы заимствуем из практики LLM и проводим постобучение с данными человеческих предпочтений. Это выравнивание едва ли проявляется в метриках (которые унаследуют те же ограничения, что и потери), но оно значительно улучшает воспринимаемое качество 3D выходов. Больше деталей в статье.