Skild AI met ses cartes sur la table (partiellement, en tout cas). Les données de téléopération manquent de diversité et sont limitées par une échelle de temps opérateur humain 1:1. Pour y remédier, Skild a pré-entraîné son modèle en utilisant des données vidéo à l'échelle d'Internet (déjà largement disponibles sous forme de séquences vidéo de caméra embarquée "égocentrique" à la première personne et de millions de vidéos d'instruction sur YouTube).
En tirant parti de cette vaste "intelligence biologique" dans les vidéos humaines, le modèle peut effectuer un ensemble diversifié de tâches avec moins d'une heure de données spécifiques aux robots.
Cette approche brise le goulot d'étranglement des données robotiques pour débloquer l'échelle des modèles fondamentaux. Le modèle résiste également aux interférences adversariales - le type de robustesse généralement observé dans la locomotion.
62