La IA habilidosa está poniendo sus cartas sobre la mesa (al menos en parte). Los datos de teleoperación carecen de diversidad y están limitados por una escala de tiempo 1:1 del operador humano. Para abordar esto, Skild preentrenó su modelo utilizando datos de vídeo a escala de internet (ya ampliamente disponibles en forma de imágenes en primera persona "egocéntricas" de cámaras frontales hasta millones de vídeos instructivos en YouTube).
Aprovechando esta vasta "inteligencia biológica" en vídeos humanos, el modelo puede realizar un conjunto diverso de tareas con menos de una hora de datos específicos de robots.
Este enfoque elimina el cuello de botella de los datos robóticos para desbloquear la escala del modelo de cimentación. El modelo también resiste la interferencia adversarial, el tipo de robustez que suele verse en la locomoción.
58