بعض التقنيات وراء SAM 3D التي أشعر بالحماس تجاهها بشكل خاص: 1⃣ مجموعات البيانات ثلاثية الأبعاد الحالية (Objaverse-XL، ProcTHOR، إلخ) رائعة لتعليم "النماذج السابقة ثلاثية الأبعاد" (الشكل والمظهر الأساسي). لكنها ليست كافية لسد الفجوة تماما مع العالم الحقيقي، حيث المشاهد مزدحمة، والأشياء محجوبة، وصغيرة، وبشكل عام فوضوي. 2⃣هنا يأتي محرك البيانات ثلاثي الأبعاد الخاص بنا في النموذج: النموذج ➜ يتنبأ بثلاثية الأبعاد من الصور الحقيقية ➜ البشر يحققون المرشحين الجيدين بسرعة (نعم/لا فقط) ➜ الثلاثي الأبعاد المتحقق يعود إلى التدريب ➜ النموذج المحسن يعود إلى الحلقة. دورة فاضلة تعزز جودة التعليقات ثلاثية الأبعاد، وسرعة التصنيف، وأداء النماذج، دون الحاجة إلى أدوات ثلاثية الأبعاد أو خبرة تصميم. 3⃣الأهداف ثلاثية الأبعاد معقدة: لا يوجد فقدان قابل للاشتقاق المغلق يلتقط بالكامل "الثلاثية الأبعاد الجيدة" (التماثل، النعومة، الاكتمال). لذا نحن نستعين من دليل LLM ونستدرب بعد التدريب على بيانات التفضيلات البشرية. هذا التوافق نادرا ما يظهر في المقاييس (التي ترث نفس القيود التي تحمل نفس القيود التي تحمل الخسائر)، لكنه يحسن بشكل كبير جودة الإدراك للمخرجات ثلاثية الأبعاد. مزيد من التفاصيل في الصحيفة.