DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O Google DeepMind apresenta o Gemini Robotics 1.5, permitindo que os robôs percebam, planejem, pensem, usem ferramentas e atuem em tarefas complexas. A estrutura agêntica compreende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orquestra raciocínio e planejamento incorporados de alto nível. ⦿ Gemini Robotics 1.5 (VLA): Converte visuais e instruções fornecidos pelo ER 1.5 em ações.

O modelo VLA "pensa antes de agir" usando um monólogo de linguagem natural em vários níveis. Ele divide tarefas como "classificar a roupa por cor" em etapas (por exemplo, identificar cores, escolher itens, detalhar movimentos), melhorando a transparência, a robustez e a adaptabilidade a novos cenários.

A Gemini Robotics 1.5 aprende com diversos conjuntos de dados em todas as modalidades (ALOHA, Franka bi-braço, humanóide Apollo), permitindo a transferência de habilidades sem especialização. Por exemplo, tarefas treinadas em um robô funcionam em outros, abordando a escassez de dados e aumentando a eficiência.

O Gemini Robotics-ER 1.5 estabelece uma nova referência no raciocínio incorporado, destacando-se em tarefas espaciais, temporais e semânticas, como apontamento, estimativa de progresso e planejamento de tarefas. Ele fornece raciocínio incorporado de alto nível, generalizando para um mundo aberto de objetos e cenas.

16,39K

Melhores

Classificação

Favoritos