Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hvorfor ser roboter dumme ut? Kombinert med fantasy-TV-serien jeg har sett nylig, "Monstre er ikke så enkle", og det samme gjelder for "Steel to Human".
De to viktigste delene av en robot, sinnet og kroppen. For å si det enkelt, hans dumhet er at når det gjelder å være en erstatning for å være en person, er sinnet hans litt verre, og kroppen hans er også litt verre. Denne artikkelen snakker først om første halvdel, sinnet 🧠 .
Hvordan bli smart krever en enorm mengde datatrening. Språkmodellene til roboter inkluderer både VLM (vision-language model) og LLM (large language model).
Hvorfor trenger roboter VLM? Fordi språkmodeller ikke har noen øyne, kan de bare "forstå", men kan ikke se verden. Hvis du for eksempel sier: «Hjelp meg med å plukke opp vannglasset på venstre side av bordet», må roboten «se» for å handle. Visuelle modeller alene er ikke nok, de kan gjenkjenne objekter, men forstår ikke menneskelig språk og intensjoner.
VLM = Fusjon av hjerne og øye
Menneskelige instruksjoner (språk) + miljøoppfatning (visjon) → samlet i handlingsplaner.
Den autonome kjøringen vi er vant til nå er faktisk VLM. Det er bare det at autonom kjøring trenger å lære mye mindre data. Tross alt imiterer humanoide roboter mennesker, og mangfoldet og kompleksiteten i applikasjonsscenariene deres er neste dimensjon.
I VLM-trening er det fortsatt et stort gap mellom mengden data som kreves av roboten og den faktiske datamengden. De viktigste måtene å generere disse dataene på er "motion capture" og "VR remote operation". Denne datainnsamlingsmetoden er ekstremt dyr + ineffektiv, og mengden data som bidrar er ikke nok.
Samtidig mangler disse dataene fra spesielle innsamlingsmetoder ofte "generalisering". Robottrening gjøres ofte i et rent, kontrollert miljø: noen få vanlige gjenstander (flasker, kopper, blokker) plasseres på bordet. Men i virkeligheten: koppen kan være gjennomskinnelig, reflekterende og halvt blokkert av et papirhåndkle. Ulike distraksjoner (rot, støy, folk som går rundt) i hjemmet/fabrikkmiljøet. Treningsdataene mangler denne "long-tail-situasjonen", så når miljøet endrer seg, er roboten "dum".
4,63K
Topp
Rangering
Favoritter