Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

O Google DeepMind apresenta o Gemini Robotics 1.5, permitindo que robôs percebam, planejem, pensem, usem ferramentas e atuem em tarefas complexas. A estrutura agentiva compreende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orquestra o raciocínio e planejamento incorporados de alto nível. ⦿ Gemini Robotics 1.5 (VLA): Converte visuais e instruções fornecidas pelo ER 1.5 em ações.

O modelo VLA "pensa antes de agir" usando um monólogo de linguagem natural em múltiplos níveis. Ele divide tarefas como "classificar a roupa por cor" em etapas (por exemplo, identificar cores, escolher itens, detalhar movimentos), melhorando a transparência, robustez e adaptabilidade a novos cenários.

A Gemini Robotics 1.5 aprende a partir de conjuntos de dados diversos em diferentes emanações (ALOHA, bi-arm Franka, humanoide Apollo), permitindo a transferência de habilidades sem especialização. Por exemplo, tarefas treinadas em um robô funcionam em outros, abordando a escassez de dados e melhorando a eficiência.

O Gemini Robotics-ER 1.5 estabelece um novo padrão em raciocínio incorporado, destacando-se em tarefas espaciais, temporais e semânticas, como apontar, estimativa de progresso e planejamento de tarefas. Ele fornece raciocínio incorporado de alto nível, generalizando para um mundo aberto de objetos e cenas.

16,39K

Top

Classificação

Favoritos