Hoy, presentamos un cambio radical en la IA robótica @sundayrobotics. Presentamos ACT-1: Un modelo de base robótica de frontera entrenado con cero datos de robots. - Tareas de ultra largo horizonte - Generalización de cero disparos - Destreza avanzada 🧵->
En lugar de la teleoperación, entrenamos únicamente con datos de nuestro Guante de Captura de Habilidades. El guante está co-diseñado con la mano de Memo, lo que significa que comparten la misma geometría y conjunto de sensores. Si puedes hacerlo usando el guante, Memo puede aprenderlo.
El Guante de Captura de Habilidades nos proporciona una eficiencia de capital dos órdenes de magnitud mayor en comparación con la teleoperación ($200 frente a $20,000) También nos permite escalar la diversidad más rápido. Puedes recopilar datos en cualquier lugar sin necesidad de mover robots.
El Guante de Captura de Habilidades alinea las manos, pero ¿qué pasa con el resto del cuerpo? Los recolectores humanos varían en altura y longitud de brazos, y también son visualmente diferentes. Desarrollamos Skill Transform, un método que convierte los datos del guante en datos equivalentes de robot con una tasa de éxito del 90% o más.
Nos tomó más de un año diseñar la infraestructura central. Luego pasamos los últimos 3 meses produciendo todos los resultados autónomos mencionados arriba. A continuación, destaco algunas de mis partes favoritas de este lanzamiento.
La tarea de llevar la mesa al lavavajillas es el clásico escenario de pesadilla para los robóticos: Manipulación de cuerpo completo, altamente diestro, preciso y a largo plazo, combinado con objetos delicados, transparentes, reflectantes y deformables. Sin embargo, Memo lo maneja de manera tan natural y elegante.
Específicamente, cargar la copa de vino es la subtarea más delicada: ¿Presionar con demasiada fuerza? ¿Romperse? ¿Insertar el prong incorrecto? ¿Romperse? Rompimos muchas durante el desarrollo, pero cero en más de 20 sesiones de demostración en vivo.
Un hecho poco conocido sobre la recolección de datos basada en guantes: produce datos de mayor calidad que la teleoperación en tareas ricas en contacto. La teleoperación remota no puede proporcionar una buena retroalimentación de fuerza, pero los guantes lo hacen de forma natural, lo que hace que tareas como doblar calcetines, que dependen del tacto, sean mucho más fáciles de capturar.
Es aún más divertido ver cómo reacciona Memo a entornos desconocidos. Lo desplegamos en 6 Airbnbs no vistos y le encargamos al robot tareas específicas como recoger utensilios del plato. Debido a que entrenamos con datos de más de 500 hogares, el nuevo hogar es instantáneamente familiar para Memo.
13,14K