Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Por qué los robots parecen torpes? Combinando con la reciente serie de fantasía que vi, "No es tan simple convertirse en humano", "Convertirse en humano de acero" también es así.
Las dos partes más importantes de un robot son la mente y el cuerpo. En términos simples, su torpeza se debe a que, al reemplazar a los humanos, su mente es un poco deficiente y su cuerpo también lo es. Este artículo primero hablará de la primera parte, la mente 🧠.
Para que la mente se vuelva más inteligente, necesita una cantidad masiva de entrenamiento de datos. El modelo de lenguaje del robot tiene tanto VLM (modelo de visión-lenguaje) como LLM (modelo de lenguaje grande).
¿Por qué necesita el robot VLM? Porque el modelo de lenguaje no tiene ojos, solo puede "entender" pero no ver el mundo. Por ejemplo, si dices "ayúdame a recoger la taza de agua que está a la izquierda en la mesa", el robot debe "ver" para poder actuar. No es suficiente depender solo del modelo visual, ya que el modelo visual puede reconocer objetos, pero no entiende el lenguaje y la intención humana.
VLM = fusión del cerebro y los ojos
Instrucciones humanas (lenguaje) + percepción del entorno (visual) → se convierte en un plan de acción unificado.
Lo que ahora consideramos conducción autónoma también es, de hecho, VLM. Solo que los datos que necesita aprender la conducción autónoma son mucho menores. Después de todo, un robot humanoide imita a los humanos, y su diversidad y complejidad de escenarios de aplicación son de otro nivel.
Sin embargo, en el entrenamiento de VLM, la cantidad de datos que necesita el robot y la cantidad de datos reales aún tienen una gran brecha. Actualmente, la forma principal de generar estos datos es a través de "captura de movimiento" y "operación remota en VR". Este método de recopilación de datos es extremadamente costoso y poco eficiente, y la cantidad de datos que contribuye no es suficiente.
Al mismo tiempo, estos datos provenientes de métodos de recopilación especiales a menudo carecen de "generalización". El entrenamiento de robots a menudo se realiza en entornos limpios y controlados: sobre la mesa hay algunos objetos comunes (botellas, tazas, bloques). Pero en la realidad: la taza puede ser semitransparente, reflectante o estar parcialmente cubierta por una servilleta. En casa/fábrica, hay diversas interferencias (objetos desordenados, ruido, personas que pasan). Los datos de entrenamiento carecen de estas "situaciones de cola larga", por lo que una vez que el entorno cambia, el robot se vuelve "torpe".
4,65K
Parte superior
Clasificación
Favoritos