Google DeepMind представляє Gemini Robotics 1.5, що дозволяє роботам сприймати, планувати, думати, використовувати інструменти та діяти над складними завданнями. Агентна структура включає в себе: ⦿ Gemini Robotics-ER 1.5 (VLM): Керує втіленими міркуваннями та плануванням на високому рівні. ⦿ Gemini Robotics 1.5 (VLA): перетворює візуальні ефекти та інструкції, надані ER 1.5, на дії.
Модель VLA «думає, перш ніж діяти», використовуючи багаторівневий монолог природної мови. Він розбиває завдання на кшталт «сортування білизни за кольором» на етапи (наприклад, визначення кольорів, вибір предметів, деталізація рухів), покращуючи прозорість, надійність і адаптивність до нових сценаріїв.
Gemini Robotics 1.5 навчається на різноманітних наборах даних у різних варіантах (ALOHA, дворука Franka, гуманоїд Apollo), що дозволяє передавати навички без спеціалізації. Наприклад, завдання, навчені на одному роботі, працюють на інших, вирішуючи проблему дефіциту даних і підвищуючи ефективність.
Gemini Robotics-ER 1.5 встановлює новий стандарт у втіленому міркуванні, досягаючи успіху в просторових, часових і семантичних завданнях, таких як вказівки, оцінка прогресу та планування завдань. Вона забезпечує високорівневе втілене міркування, узагальнюючи на відкритий світ предметів і сцен.
13,04K