اليوم، نقدم خطوة في الذكاء الاصطناعي الروبوتات @sundayrobotics. نقدم ACT-1: نموذج أساس روبوت متقدم مدرب على صفر بيانات روبوت. - مهام الأفق الطويل جدا - تعميم الطلقة الصفرية - البراعة المتقدمة 🧵->
بدلا من التشغيل عن بعد، نتدرب فقط على بيانات قفاز التقاط المهارات الخاص بنا. القفاز مصمم بالتعاون مع يد ميمو، مما يعني أنهما يشتركان في نفس الهندسة ومجموعة المستشعرات بالضبط. إذا استطعت فعل ذلك وأنت ترتدي القفاز، يمكن لميمو أن يتعلمه.
قفاز التقاط المهارات يمنحنا كفاءة رأس المال أعلى بمقدار مرتبة واحدة مقارنة بالتشغيل عن بعد (200 دولار مقابل 20,000 دولار) كما يسمح لنا بتوسيع التنوع بشكل أسرع. يمكنك جمع البيانات من أي مكان دون الحاجة لتحريك الروبوتات.
قفاز التقاط المهارات يصطف اليدين، لكن ماذا عن بقية الجسم؟ يتفاوت جامعو البشر في الطول والطول الذراعي، كما أنهم مختلفون بصريا. طورنا طريقة Skill Transval، وهي طريقة تحول بيانات القفازات إلى بيانات روبوتات مكافئة بنسبة نجاح 90٪+.
استغرق الأمر منا أكثر من عام لهندسة البنية التحتية الأساسية. ثم قضينا الأشهر الثلاثة الماضية لإنتاج جميع النتائج الذاتية المذكورة أعلاه. فيما يلي، أبرز بعضا من أجزائي المفضلة في هذا الإصدار.
مهمة الانتقال من الطاولة إلى غسالة الصحون هي السيناريو الكلاسيكي الكابوسي لهواة الروبوتات: أفق طويل، ماهر للغاية، دقيق، وتحكم كامل للجسم مع أشياء دقيقة وشفافة وعاكسة وقابلة للتشوه. ومع ذلك، يتعامل ميمو مع الأمر بشكل طبيعي وأناقي.
تحديدا، تحميل كؤوس النبيذ هو المهمة الفرعية الأكثر دقة: هل تدفع بقوة زائدة؟ كسر. إدخال الشوك الخطأ؟ كسر. كسرنا الكثير أثناء التطوير، لكن لم يحدث أي أكثر من 20+ جلسة عرض مباشرة.
هناك حقيقة أقل شهرة حول جمع البيانات باستخدام القفازات: إنها تنتج بيانات ذات جودة أعلى من التليوب في المهام الغنية بالتلامس. التقنية عن بعد لا توفر تغذية راجعة قوية جيدة، لكن القفازات تفعل ذلك بشكل طبيعي، مما يجعل مهام مثل طي الجوارب، التي تعتمد على الإحساس، أسهل بكثير في التقاطها.
من الممتع أكثر رؤية كيف يتفاعل ميمو مع البيئات غير المرئية. نقوم بنشره على 6 محطات Airbnb غير مرئية ونكلف الروبوت بمهام دقيقة مثل التقاط الأدوات من اللوحة. لأننا نتدرب على بيانات أكثر من 500 منزل، يصبح المنزل الجديد مألوفا فورا ل Memo.
‏‎13.13‏K