Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Fiona ❤️& ✌️
AppLovin vil bli inkludert i S&P 500-referanseindeksen sammen med Robinhood og Emcor, og erstatter henholdsvis MarketAxess, Caesars og Enphase. Det er verdt å merke seg at AppLovin hadde en markedsverdi på rundt 165 milliarder dollar før de ble valgt, noe som gjør det til det største amerikanske selskapet som ikke hadde vært inkludert i S&P 500 før.
2,9K
På den tredje dagen etter kjeveluksasjonsoperasjonen spiste jeg endelig ris og det føltes godt å endelig kunne tygge noe!
Årsaken til den forskjøvede kjeven er ikke detaljert, men denne opplevelsen fikk meg til å føle meg glad for første gang at jeg har en kjeve som jeg kan tygge godt.
Helse er egentlig premisset for alt.
Jeg takker virkelig mannen min for at han alltid er der og sømløst kobler seg til scenen der vi deler arbeidet og spiser fullstendig. Jeg spiser grønnsaksblader, han spiser grønnsaksstengler, jeg spiser brødkjerner, han spiser brødkanter.
3,44K
Hvorfor ser roboter dumme ut? Kombinert med fantasy-TV-serien jeg har sett nylig, "Monstre er ikke så enkle", og det samme gjelder for "Steel to Human".
De to viktigste delene av en robot, sinnet og kroppen. For å si det enkelt, hans dumhet er at når det gjelder å være en erstatning for å være en person, er sinnet hans litt verre, og kroppen hans er også litt verre. Denne artikkelen snakker først om første halvdel, sinnet 🧠 .
Hvordan bli smart krever en enorm mengde datatrening. Språkmodellene til roboter inkluderer både VLM (vision-language model) og LLM (large language model).
Hvorfor trenger roboter VLM? Fordi språkmodeller ikke har noen øyne, kan de bare "forstå", men kan ikke se verden. Hvis du for eksempel sier: «Hjelp meg med å plukke opp vannglasset på venstre side av bordet», må roboten «se» for å handle. Visuelle modeller alene er ikke nok, de kan gjenkjenne objekter, men forstår ikke menneskelig språk og intensjoner.
VLM = Fusjon av hjerne og øye
Menneskelige instruksjoner (språk) + miljøoppfatning (visjon) → samlet i handlingsplaner.
Den autonome kjøringen vi er vant til nå er faktisk VLM. Det er bare det at autonom kjøring trenger å lære mye mindre data. Tross alt imiterer humanoide roboter mennesker, og mangfoldet og kompleksiteten i applikasjonsscenariene deres er neste dimensjon.
I VLM-trening er det fortsatt et stort gap mellom mengden data som kreves av roboten og den faktiske datamengden. De viktigste måtene å generere disse dataene på er "motion capture" og "VR remote operation". Denne datainnsamlingsmetoden er ekstremt dyr + ineffektiv, og mengden data som bidrar er ikke nok.
Samtidig mangler disse dataene fra spesielle innsamlingsmetoder ofte "generalisering". Robottrening gjøres ofte i et rent, kontrollert miljø: noen få vanlige gjenstander (flasker, kopper, blokker) plasseres på bordet. Men i virkeligheten: koppen kan være gjennomskinnelig, reflekterende og halvt blokkert av et papirhåndkle. Ulike distraksjoner (rot, støy, folk som går rundt) i hjemmet/fabrikkmiljøet. Treningsdataene mangler denne "long-tail-situasjonen", så når miljøet endrer seg, er roboten "dum".
4,32K
Topp
Rangering
Favoritter