Waarom zien robots er zo dom uit? In combinatie met de recente fantasyserie die ik heb gekeken, "Het veranderen van een demon in een mens is niet zo eenvoudig", en "Het veranderen van staal in een mens" is ook zo. De twee belangrijkste onderdelen van een robot zijn de geest en het lichaam. Simpel gezegd, zijn domheid ligt in het vervangen van de mens; zijn geest is een beetje tekort, en zijn lichaam ook een beetje. Dit artikel bespreekt eerst de bovenste helft, de geest 🧠. Hoe kan de geest slimmer worden? Dit vereist een enorme hoeveelheid data-training. Het taalmodel van de robot heeft zowel VLM (visueel-taalmodel) als LLM (groot taalmodel). Waarom heeft een robot VLM nodig? Omdat een taalmodel geen ogen heeft, kan het alleen "begrijpen" maar de wereld niet zien. Bijvoorbeeld, als je zegt: "Help me het waterglas aan de linkerkant van de tafel op te pakken", moet de robot "zien" om te kunnen handelen. Alleen een visueel model is ook niet genoeg; een visueel model kan objecten herkennen, maar begrijpt de menselijke taal en intenties niet. VLM = een combinatie van brein en ogen Menselijke instructies (taal) + omgevingswaarneming (visie) → wordt omgezet in een actieplan. Wat we nu gewend zijn aan autonoom rijden is in feite ook VLM. Alleen heeft autonoom rijden veel minder data nodig om te leren. Tenslotte imiteert een humanoïde robot de mens, en de diversiteit en complexiteit van zijn toepassingsscenario's zijn een volgende dimensie. Wat betreft de training van VLM is er nog steeds een enorme kloof tussen de hoeveelheid data die de robot nodig heeft en de werkelijke hoeveelheid data. De huidige methoden om deze data te genereren zijn voornamelijk "motion capture" en "VR-remote control". Deze methoden voor dataverzameling zijn extreem kostbaar + inefficiënt, en de hoeveelheid bijgedragen data is ook niet genoeg. Tegelijkertijd missen deze data, die afkomstig zijn van speciale verzamelmethoden, vaak "generaliseerbaarheid". Robottraining vindt vaak plaats in schone, controleerbare omgevingen: een paar veelvoorkomende objecten (flessen, glazen, blokken) op een tafel. Maar in de werkelijkheid: een glas kan halfdoorzichtig, reflecterend zijn, of gedeeltelijk bedekt door een servet. Thuis/fabrieksomgevingen hebben allerlei verstoringen (rommel, geluid, mensen die heen en weer lopen). Trainingsdata missen deze "long-tail situaties", dus zodra de omgeving verandert, wordt de robot "dom".
4,65K