Pourquoi les robots ont-ils l'air si bêtes ? En lien avec la série fantastique que j'ai récemment regardée, "Les métamorphoses ne sont pas si simples", "Les hommes de fer" le sont aussi. Les deux parties les plus importantes d'un robot sont son esprit et son corps. En d'autres termes, sa "bêtise" réside dans sa capacité à remplacer l'homme : son esprit est un peu en deçà, et son corps aussi. Cet article aborde d'abord la première partie, l'esprit 🧠. Comment rendre l'esprit plus intelligent ? Cela nécessite une quantité énorme de données pour l'entraînement. Le modèle linguistique du robot comprend à la fois un VLM (modèle visuel-linguistique) et un LLM (modèle de langage de grande taille). Pourquoi un robot a-t-il besoin d'un VLM ? Parce qu'un modèle linguistique n'a pas d'yeux, il peut seulement "comprendre" mais ne peut pas voir le monde. Par exemple, si vous dites "aide-moi à prendre le verre d'eau à gauche sur la table", le robot doit "voir" pour pouvoir agir. Se fier uniquement à un modèle visuel n'est pas suffisant, car un modèle visuel peut reconnaître des objets mais ne comprend pas le langage et l'intention humaine. VLM = fusionner le cerveau et les yeux Instructions humaines (langage) + perception de l'environnement (visuel) → transformation unifiée en plan d'action. Ce à quoi nous sommes habitués avec la conduite autonome est en fait aussi un VLM. Cependant, les données nécessaires à la conduite autonome sont beaucoup moins nombreuses. Après tout, un robot humanoïde imite l'homme, et la diversité et la complexité de ses scénarios d'application sont d'un autre niveau. En ce qui concerne l'entraînement VLM, la quantité de données requise par le robot et la quantité de données réelles présentent encore un énorme écart. Actuellement, la manière dont ces données sont générées repose principalement sur la "capture de mouvement" et "l'opération à distance en VR". Cette méthode de collecte de données est extrêmement coûteuse et peu efficace, et la quantité de données contribuée est insuffisante. De plus, ces données issues de méthodes de collecte spéciales manquent souvent de "généralisation". L'entraînement des robots se fait souvent dans des environnements propres et contrôlés : quelques objets courants (bouteilles, tasses, blocs de construction) sont placés sur une table. Mais dans la réalité : une tasse peut être semi-transparente, réfléchissante, ou partiellement cachée par un mouchoir. L'environnement domestique ou industriel présente diverses interférences (désordre, bruit, personnes qui passent). Les données d'entraînement manquent de ces "situations à longue traîne", donc dès que l'environnement change, le robot devient "bête".
4,65K