Proč roboti vypadají hloupě? V kombinaci s fantasy televizním seriálem, který jsem nedávno sledoval, "Monstra nejsou tak jednoduchá", a to samé platí pro "Steel to Human". Dvě nejdůležitější části robota, mysl a tělo. Jednoduše řečeno, jeho hloupost spočívá v tom, že pokud jde o to, že je náhražkou za to, že je člověkem, jeho mysl je na tom o něco hůř a jeho tělo je také o něco horší. Tento článek nejprve hovoří o první polovině, mysl 🧠 . Jak se stát chytrým vyžaduje obrovské množství datového tréninku. Jazykové modely robotů zahrnují jak VLM (vision-language model), tak LLM (large language model). Proč roboti potřebují VLM? Protože jazykové modely nemají oči, mohou pouze "rozumět", ale nemohou vidět svět. Pokud například řeknete: "Pomozte mi zvednout sklenici s vodou na levé straně stolu," robot musí "vidět", aby mohl jednat. Vizuální modely samy o sobě nestačí, dokážou rozpoznat objekty, ale nerozumí lidské řeči a záměrům. VLM = fúze mozku a oka Lidské pokyny (jazyk) + vnímání prostředí (vize) → sjednoceny do akčních plánů. Autonomní řízení, na které jsme nyní zvyklí, je ve skutečnosti VLM. Jde jen o to, že autonomní řízení se potřebuje naučit mnohem méně dat. Humanoidní roboti koneckonců napodobují lidi a rozmanitost a složitost jejich aplikačních scénářů jsou dalším rozměrem. Při školení VLM je stále obrovská mezera mezi množstvím dat požadovaných robotem a skutečným množstvím dat. Hlavními způsoby generování těchto dat jsou "snímání pohybu" a "dálkové ovládání VR". Tento způsob sběru dat je extrémně drahý + neefektivní a množství vložených dat nestačí. Zároveň tato data ze speciálních metod sběru často postrádají "zobecnění". Školení robotů se často provádí v čistém, kontrolovaném prostředí: na stůl se položí několik běžných předmětů (lahve, kelímky, bloky). Ale ve skutečnosti: kalíšek může být průsvitný, reflexní a napůl ucpaný papírovou utěrkou. Různá rozptýlení (nepořádek, hluk, chodící lidé) v domácím/továrním prostředí. Tréninková data tuto "long-tail situaci" postrádají, takže jakmile se prostředí změní, robot je "hloupý".
4,32K