DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Google DeepMind introducerar Gemini Robotics 1.5, som gör det möjligt för robotar att uppfatta, planera, tänka, använda verktyg och agera på komplexa uppgifter. Det agentiska ramverket består av: ⦿ Gemini Robotics-ER 1.5 (VLM): Orkestrerar förkroppsligat resonemang och planering på hög nivå. ⦿ Gemini Robotics 1.5 (VLA): Omvandlar bilder och instruktioner från ER 1.5 till åtgärder.

VLA-modellen "tänker innan den agerar" med hjälp av en monolog på naturligt språk på flera nivåer. Den bryter ner uppgifter som att "sortera tvätt efter färg" i steg (t.ex. identifiera färger, plocka föremål, detaljrörelser), vilket förbättrar transparensen, robustheten och anpassningsförmågan till nya scenarier.

Gemini Robotics 1.5 lär sig från olika datauppsättningar över utföringsformer (ALOHA, bi-arm Franka, Apollo humanoid), vilket möjliggör överföring av färdigheter utan specialisering. Till exempel fungerar uppgifter som tränats på en robot på andra, vilket tar itu med databrist och förbättrar effektiviteten.

Gemini Robotics-ER 1.5 sätter en ny standard för förkroppsligat resonemang och utmärker sig i rumsliga, temporala och semantiska uppgifter som att peka, uppskatta framsteg och planera uppgifter. Det ger förkroppsligat resonemang på hög nivå och generaliserar till en öppen värld av föremål och scener.

16,39K

Topp

Rankning

Favoriter