特に私がワクワクしているSAM 3Dの技術の一部は以下の通りです: 1⃣ 既存の3Dデータセット(Objaverse-XL、ProcTHORなど)は「3D事前学習」(基本的な形状と外観)を教えるのに最適です。しかし、それらはシーンが散らかり、オブジェクトが遮られ、小さく、全体的に散らかっている現実世界とのギャップを完全に埋めるには不十分です。 2⃣ここでモデル・イン・ザ・ループの3Dデータエンジンの登場です。モデル➜ 実際の画像から3Dを予測 ➜ 人間が良い候補者を素早く審査(はい・いいえのみ) ➜ 検証済みの3Dは再びトレーニングに戻る ➜ 改良モデルがループに再入ります。3Dツールや設計の専門知識を必要とせずに、3D注釈の品質、ラベリングの速度、モデル性能を向上させる良循環です。 3⃣3Dの目的は難しいです。閉形式の微分可能損失は「良い3D性」(対称性、滑らかさ、完全性)を完全に捉えられません。そこで私たちはLLMのプレイブックを借用し、人間の好みデータを使ってポストトレインします。この整合性は、損失と同じ制限を伴う指標にはほとんど現れませんが、3D出力の認識品質は劇的に向上します。 詳細は新聞に掲載しています。