A Skild AI está a mostrar as suas cartas na mesa (parcialmente, de qualquer forma). Os dados de teleoperação carecem de diversidade e estão limitados por uma escala de tempo de operador humano de 1:1. Para resolver isso, a Skild pré-treinou o seu modelo usando dados de vídeo em escala da internet (já amplamente disponíveis na forma de filmagens de câmara de cabeça "egocêntrica" em primeira pessoa até milhões de vídeos instrutivos no YouTube).
Ao aproveitar esta vasta "inteligência biológica" em vídeos humanos, o modelo pode realizar um conjunto diversificado de tarefas com menos de uma hora de dados específicos de robô.
Esta abordagem quebra o gargalo de dados de robótica para desbloquear a escala do modelo fundamental. O modelo também resiste à interferência adversarial - o tipo de robustez geralmente visto na locomoção.
69