O Google DeepMind apresenta o Gemini Robotics 1.5, permitindo que robôs percebam, planejem, pensem, usem ferramentas e atuem em tarefas complexas. A estrutura agentiva compreende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orquestra o raciocínio e planejamento incorporados de alto nível. ⦿ Gemini Robotics 1.5 (VLA): Converte visuais e instruções fornecidas pelo ER 1.5 em ações.
O modelo VLA "pensa antes de agir" usando um monólogo de linguagem natural em múltiplos níveis. Ele divide tarefas como "classificar a roupa por cor" em etapas (por exemplo, identificar cores, escolher itens, detalhar movimentos), melhorando a transparência, robustez e adaptabilidade a novos cenários.
A Gemini Robotics 1.5 aprende a partir de conjuntos de dados diversos em diferentes emanações (ALOHA, bi-arm Franka, humanoide Apollo), permitindo a transferência de habilidades sem especialização. Por exemplo, tarefas treinadas em um robô funcionam em outros, abordando a escassez de dados e melhorando a eficiência.
O Gemini Robotics-ER 1.5 estabelece um novo padrão em raciocínio incorporado, destacando-se em tarefas espaciais, temporais e semânticas, como apontar, estimativa de progresso e planejamento de tarefas. Ele fornece raciocínio incorporado de alto nível, generalizando para um mundo aberto de objetos e cenas.
16,39K