Hoy presentamos un cambio radical en la @sundayrobotics de IA robótica. Presentamos ACT-1: Un modelo pionero de fundación robótica entrenado con cero datos robóticos. - Tareas de ultra largo horizonte - Generalización de disparo cero - Destreza avanzada 🧵->
En lugar de teleoperación, entrenamos únicamente con datos de nuestro Guante de Captura de Habilidades. El guante está co-diseñado con la mano de Memo, lo que significa que comparten exactamente la misma geometría y conjunto de sensores. Si puedes hacerlo con el guante, Memo puede aprenderlo.
El Guante de Captura de Habilidades nos ofrece dos órdenes de magnitud más de eficiencia de capital en comparación con la teleoperación (200 dólares frente a 20.000 dólares) También nos permite escalar la diversidad más rápido. Puedes recopilar datos en cualquier lugar sin necesidad de mover robots.
El Guante de Captura de Habilidad alinea las manos, pero ¿qué pasa con el resto del cuerpo? Los coleccionistas humanos varían en altura y longitud de brazos, y también son visualmente diferentes. Desarrollamos Skill Transform, un método que convierte datos de guantes en datos equivalentes de robots con una tasa de éxito del 90%+.
Nos llevó más de un año diseñar la infraestructura central. Después pasamos los últimos 3 meses produciendo todos los resultados autónomos mencionados arriba. A continuación, destaco algunas de mis partes favoritas de esta edición.
La tarea de la mesa al lavavajillas es el clásico escenario de pesadilla para los roboticistas: Manipulación de todo el cuerpo a largo plazo, muy hábil, precisa y de todo el cuerpo, combinada con objetos delicados, transparentes, reflectantes y deformables. Sin embargo, Memo lo maneja de forma tan natural y elegante.
Específicamente, cargar copas de vino es la subtarea más delicada: ¿Presionar con demasiada fuerza? Romper. ¿Insertar la punta equivocada? Romper. Rompimos muchas durante el desarrollo, pero ninguna en más de 20+ sesiones de demos en directo.
Un dato menos conocido sobre la recogida de datos basada en guantes: produce datos de mayor calidad que el teleop en tareas con mucho contacto. La teleoperación remota no puede proporcionar una buena retroalimentación de fuerza, pero los guantes sí lo hacen de forma natural, lo que facilita mucho capturar tareas como doblar calcetines, que dependen de la sensibilidad.
Es aún más divertido ver cómo reacciona Memo ante entornos invisibles. Lo desplegamos en 6 Airbnbs invisibles y encargamos al robot tareas detalladas como recoger los cubiertos del plato. Como entrenamos con datos de más de 500 hogares, el nuevo hogar resulta instantáneamente familiar para Memo.
13.13K