Google DeepMind introduserer Gemini Robotics 1.5, som gjør det mulig for roboter å oppfatte, planlegge, tenke, bruke verktøy og handle på komplekse oppgaver. Det agentiske rammeverket omfatter: ⦿ Gemini Robotics-ER 1.5 (VLM): Orkestrerer legemliggjort resonnement og planlegging på høyt nivå. ⦿ Gemini Robotics 1.5 (VLA): Konverterer bilder og instruksjoner gitt av ER 1.5 til handlinger.
VLA-modellen «tenker før den handler» ved hjelp av en monolog med naturlig språk på flere nivåer. Den deler opp oppgaver som "sorter klesvask etter farge" i trinn (f.eks. identifisere farger, velge gjenstander, detaljbevegelser), forbedre åpenhet, robusthet og tilpasningsevne til nye scenarier.
Gemini Robotics 1.5 lærer av ulike datasett på tvers av utførelsesformer (ALOHA, bi-arm Franka, Apollo humanoid), noe som muliggjør null-skudds ferdighetsoverføring uten spesialisering. For eksempel fungerer oppgaver som trenes på én robot på andre, adresserer dataknapphet og øker effektiviteten.
Gemini Robotics-ER 1.5 setter en ny standard innen kroppslig resonnement, og utmerker seg i romlige, tidsmessige og semantiske oppgaver som peking, fremdriftsestimering og oppgaveplanlegging. Det gir legemliggjort resonnement på høyt nivå, og generaliserer til en åpen verden av objekter og scener.
16,38K