Varför ser robotar dumma ut? Kombinerat med den fantasy-tv-serie jag sett den senaste tiden, "Monsters are not that simple", och detsamma gäller för "Steel to Human". De två viktigaste delarna av en robot, sinnet och kroppen. För att uttrycka det enkelt, hans dumhet är att när det gäller att vara ett substitut för att vara en person, är hans sinne lite sämre, och hans kropp är också lite sämre. Den här artikeln talar först om den första halvan, sinnet 🧠 . Hur man blir smart kräver en enorm mängd dataträning. Språkmodellerna för robotar inkluderar både VLM (vision-language model) och LLM (large language model). Varför behöver robotar VLM? Eftersom språkmodeller inte har några ögon kan de bara "förstå" men kan inte se världen. Om du till exempel säger "Hjälp mig att plocka upp vattenglaset på vänster sida av bordet" måste roboten "se" för att agera. Enbart visuella modeller räcker inte, de kan känna igen objekt men förstår inte mänskligt språk och avsikter. VLM = Fusion av hjärna och öga Mänskliga instruktioner (språk) + miljöuppfattning (vision) → förenas i handlingsplaner. Den autonoma körning vi är vana vid nu är faktiskt VLM. Det är bara det att autonom körning behöver lära sig mycket mindre data. När allt kommer omkring imiterar humanoida robotar människor, och mångfalden och komplexiteten i deras applikationsscenarier är nästa dimension. Inom VLM-träning finns det fortfarande ett stort gap mellan mängden data som krävs av roboten och den faktiska mängden data. De viktigaste sätten att generera dessa data är "motion capture" och "VR-fjärrstyrning". Denna datainsamlingsmetod är extremt dyr + ineffektiv, och mängden data som bidrar räcker inte till. Samtidigt saknar dessa data från speciella insamlingsmetoder ofta "generalisering". Robotträning sker ofta i en ren, kontrollerad miljö: några vanliga föremål (flaskor, koppar, block) placeras på bordet. Men i verkligheten: koppen kan vara genomskinlig, reflekterande och halvt blockerad av en pappershandduk. Olika distraktioner (röra, buller, människor som går runt) i hem-/fabriksmiljön. Träningsdatan saknar denna "long-tail-situation", så när miljön förändras är roboten "dum".
4,66K