Google DeepMind wprowadza Gemini Robotics 1.5, umożliwiając robotom postrzeganie, planowanie, myślenie, korzystanie z narzędzi i działanie w złożonych zadaniach. Ramy agentowe obejmują: ⦿ Gemini Robotics-ER 1.5 (VLM): Koordynuje wysokopoziomowe uosobione rozumowanie i planowanie. ⦿ Gemini Robotics 1.5 (VLA): Przekształca wizualizacje i instrukcje dostarczone przez ER 1.5 w działania.
Model VLA "myśli przed działaniem" używając monologu w naturalnym języku na wielu poziomach. Rozkłada zadania takie jak "sortowanie prania według koloru" na kroki (np. identyfikacja kolorów, wybieranie przedmiotów, szczegółowe ruchy), poprawiając przejrzystość, odporność i zdolność do adaptacji do nowych scenariuszy.
Gemini Robotics 1.5 uczy się z różnorodnych zbiorów danych w różnych wcieleniach (ALOHA, bi-arm Franka, humanoid Apollo), umożliwiając transfer umiejętności bez specjalizacji. Na przykład, zadania trenowane na jednym robocie działają na innych, co rozwiązuje problem niedoboru danych i zwiększa efektywność.
Gemini Robotics-ER 1.5 ustanawia nowy standard w zakresie rozumowania ucieleśnionego, doskonale radząc sobie z zadaniami przestrzennymi, czasowymi i semantycznymi, takimi jak wskazywanie, szacowanie postępu i planowanie zadań. Oferuje zaawansowane rozumowanie ucieleśnione, uogólniając na otwarty świat obiektów i scen.
16,38K