Google DeepMind presenta Gemini Robotics 1.5, que permite a los robots percibir, planificar, pensar, usar herramientas y actuar en tareas complejas. El marco agentivo comprende: ⦿ Gemini Robotics-ER 1.5 (VLM): Orquesta el razonamiento y la planificación encarnados de alto nivel. ⦿ Gemini Robotics 1.5 (VLA): Convierte las imágenes e instrucciones proporcionadas por ER 1.5 en acciones.
El modelo VLA "piensa antes de actuar" utilizando un monólogo de lenguaje natural de múltiples niveles. Descompone tareas como "clasificar la ropa por color" en pasos (por ejemplo, identificar colores, seleccionar artículos, detallar movimientos), mejorando la transparencia, robustez y adaptabilidad a nuevos escenarios.
Gemini Robotics 1.5 aprende de conjuntos de datos diversos a través de encarnaciones (ALOHA, bi-arm Franka, humanoide Apollo), lo que permite la transferencia de habilidades en cero disparos sin especialización. Por ejemplo, las tareas entrenadas en un robot funcionan en otros, abordando la escasez de datos y mejorando la eficiencia.
Gemini Robotics-ER 1.5 establece un nuevo estándar en razonamiento incorporado, destacándose en tareas espaciales, temporales y semánticas como señalar, estimación de progreso y planificación de tareas. Proporciona un razonamiento incorporado de alto nivel, generalizando a un mundo abierto de objetos y escenas.
16,39K