Aujourd'hui, nous présentons un changement radical dans l'IA robotique @sundayrobotics. Présentation de l'ACT-1 : un modèle de fondation de robot de pointe entraîné sur aucune donnée de robot. - Tâches à très long terme - Généralisation zéro-shot - Dextérité avancée 🧵->
Au lieu de la téléopération, nous nous entraînons uniquement sur des données provenant de notre Gant de Capture de Compétences. Le gant est co-conçu avec la main de Memo, ce qui signifie qu'ils partagent exactement la même géométrie et le même ensemble de capteurs. Si vous pouvez le faire en portant le gant, Memo peut l'apprendre.
Le gant de capture de compétences nous offre une efficacité en capital deux ordres de grandeur supérieure par rapport à la téléopération (200 $ contre 20 000 $) Il nous permet également d'accélérer la diversité. Vous pouvez collecter des données n'importe où sans avoir besoin de déplacer des robots.
Le gant Skill Capture aligne les mains, mais qu'en est-il du reste du corps ? Les collecteurs humains varient en taille et en longueur de bras, et sont également visuellement différents. Nous avons développé Skill Transform, une méthode qui convertit les données du gant en données équivalentes pour les robots avec un taux de réussite de plus de 90 %.
Il nous a fallu plus d'un an pour concevoir l'infrastructure de base. Nous avons ensuite passé les 3 derniers mois à produire tous les résultats autonomes ci-dessus. Ci-dessous, je souligne certaines de mes parties préférées de cette version.
La tâche de passer de la table au lave-vaisselle est le scénario cauchemardesque classique pour les roboticiens : Manipulation précise, hautement habile et de longue portée, combinée avec des objets délicats, transparents, réfléchissants et déformables. Pourtant, Memo gère cela avec tant de naturel et d'élégance.
En particulier, le chargement du verre à vin est la sous-tâche la plus délicate : Appuyer trop fort ? Éclater. Insérer la mauvaise fourchette ? Éclater. Nous en avons cassé beaucoup pendant le développement, mais aucun lors de plus de 20 sessions de démonstration en direct.
Un fait moins connu sur la collecte de données basée sur des gants : elle produit des données de meilleure qualité que le téléopératoire sur des tâches riches en contact. Le téléopératoire à distance ne peut pas fournir un bon retour de force, mais les gants le font naturellement, rendant des tâches comme le pliage de chaussettes, qui dépendent du toucher, beaucoup plus faciles à capturer.
C'est encore plus amusant de voir comment Memo réagit à des environnements inconnus. Nous le déployons dans 6 Airbnbs non vus et confions au robot des tâches précises telles que ramasser des ustensiles sur l'assiette. Parce que nous nous entraînons sur des données provenant de plus de 500 maisons, la nouvelle maison est instantanément familière pour Memo.
13,14K