Hoje, apresentamos uma mudança radical na @sundayrobotics de IA robótica. Apresentando o ACT-1: Um modelo de fundação robótica de vanguarda treinado com dados zero de robôs. - Tarefas de ultra longo horizonte - Generalização zero-shot - Destreza avançada 🧵->
Em vez de teleoperação, treinamos exclusivamente com dados da nossa Luva de Captura de Habilidades. A luva foi co-desenhada com a mão do Memo, o que significa que eles compartilham exatamente a mesma geometria e conjunto de sensores. Se você consegue usar a luva, o Memo pode aprender.
A Luva de Captura de Habilidades nos dá duas ordens de magnitude maior eficiência de capital em comparação com teleoperação ($200 contra $20.000) Também nos permite escalar a diversidade mais rapidamente. Você pode coletar dados em qualquer lugar sem precisar mover robôs.
A Luva de Captura de Habilidade alinha as mãos, mas e o resto do corpo? Colecionadores humanos variam em altura e comprimento de braço, e também são visualmente diferentes. Desenvolvemos o Skill Transform, um método que converte dados de luvas em dados equivalentes de robôs com taxa de sucesso de 90%+.
Levamos mais de um ano para projetar a infraestrutura central. Depois, passamos os últimos 3 meses produzindo todos os resultados autônomos acima. Abaixo, destaco algumas das minhas partes favoritas deste lançamento.
A tarefa da mesa para a lava-louças é o clássico pesadelo para os roboticistas: Manipulação de longo horizonte, altamente ágil, precisa, de corpo inteiro, combinada com objetos delicados, transparentes, reflexivos e deformáveis. Ainda assim, Memo lida com isso de forma tão natural e elegante.
Especificamente, carregar taças de vinho é a subtarefa mais delicada: Empurrar com muita força? Estilhaçar. Inserir a ponta errada? Estilhaçar. Quebramos muitos durante o desenvolvimento, mas nenhum em 20+ sessões de demonstração ao vivo.
Um fato menos conhecido sobre a coleta de dados baseada em luva: ela produz dados de maior qualidade do que o teleop em tarefas com muitos contatos. O teleop remoto não fornece um bom feedback de força, mas luvas naturalmente fazem, tornando tarefas como dobrar meias, que dependem do toque, muito mais fáceis de capturar.
É ainda mais divertido ver como o Memo reage a ambientes invisíveis. Nós o implantamos em 6 Airbnbs invisíveis e encarregamos o robô de tarefas detalhadas, como pegar utensílios do prato. Como treinamos com dados de mais de 500 casas, a nova casa é instantaneamente familiar para Memo.
13,14K