¿Por qué los robots parecen tontos? Combinado con la serie de televisión de fantasía que he visto recientemente, "Los monstruos no son tan simples", y lo mismo ocurre con "Steel to Human". Las dos partes más importantes de un robot, la mente y el cuerpo. En pocas palabras, su estupidez es que en el asunto de ser un sustituto de ser una persona, su mente es un poco peor y su cuerpo también es un poco peor. Este artículo habla primero sobre la primera mitad, la mente 🧠 . Cómo volverse inteligente requiere una gran cantidad de capacitación en datos. Los modelos de lenguaje de los robots incluyen VLM (modelo de lenguaje de visión) y LLM (modelo de lenguaje grande). ¿Por qué los robots necesitan VLM? Debido a que los modelos de lenguaje no tienen ojos, solo pueden "entender" pero no pueden ver el mundo. Por ejemplo, si dices: "Ayúdame a recoger el vaso de agua en el lado izquierdo de la mesa", el robot debe "ver" para actuar. Los modelos visuales por sí solos no son suficientes, pueden reconocer objetos pero no entienden el lenguaje y las intenciones humanas. VLM = Fusión del cerebro y el ojo Las instrucciones humanas (lenguaje) + la percepción ambiental (visión) → unifican en planes de acción. La conducción autónoma a la que estamos acostumbrados ahora es en realidad VLM. Es solo que la conducción autónoma necesita aprender muchos menos datos. Después de todo, los robots humanoides imitan a los humanos, y la diversidad y complejidad de sus escenarios de aplicación son la siguiente dimensión. En el entrenamiento VLM, todavía existe una gran brecha entre la cantidad de datos requeridos por el robot y la cantidad real de datos. Las principales formas de generar estos datos son la "captura de movimiento" y la "operación remota de realidad virtual". Este método de recopilación de datos es extremadamente costoso + ineficiente, y la cantidad de datos aportados no es suficiente. Al mismo tiempo, estos datos de métodos especiales de recopilación a menudo carecen de "generalización". El entrenamiento de robots a menudo se realiza en un entorno limpio y controlado: se colocan algunos objetos comunes (botellas, tazas, bloques) sobre la mesa. Pero en realidad: la taza puede ser translúcida, reflectante y medio bloqueada por una toalla de papel. Varias distracciones (desorden, ruido, gente caminando) en el entorno del hogar / fábrica. Los datos de entrenamiento carecen de esta "situación de cola larga", por lo que una vez que cambia el entorno, el robot es "estúpido".
4.65K