Perché i robot sembrano un po' stupidi? Collegandosi a una recente serie fantasy che ho visto, "Non è così semplice trasformare i demoni in esseri umani", anche "trasformare il ferro in esseri umani" è simile. Le due parti più importanti di un robot sono la mente e il corpo. In parole semplici, la sua "stupidità" deriva dal fatto che, nel sostituire l'essere umano, la sua mente è un po' carente e il corpo lo è altrettanto. Questo articolo parlerà prima della parte superiore, la mente 🧠. Come può la mente diventare più intelligente? Ha bisogno di un'enorme quantità di dati per l'addestramento. Il modello linguistico del robot include sia VLM (modello visivo-linguistico) che LLM (modello linguistico di grandi dimensioni). Perché un robot ha bisogno di VLM? Perché il modello linguistico non ha occhi, può solo "capire" ma non vedere il mondo. Ad esempio, se dici "aiutami a prendere il bicchiere d'acqua a sinistra sul tavolo", il robot deve "vedere" per poter agire. Affidarsi solo al modello visivo non è sufficiente; il modello visivo può riconoscere gli oggetti, ma non comprende il linguaggio e le intenzioni umane. VLM = fusione di cervello e occhi Istruzioni umane (linguaggio) + percezione ambientale (visione) → trasformazione unificata in un piano d'azione. Ciò a cui siamo abituati, la guida autonoma, è in effetti VLM. Solo che i dati necessari per la guida autonoma sono molto meno. Dopotutto, un robot umanoide imita l'uomo, e la diversità e la complessità dei suoi scenari applicativi sono di un'altra dimensione. Tuttavia, nella formazione di VLM, la quantità di dati necessaria per il robot e la quantità di dati effettivi sono ancora enormemente distanti. Attualmente, il modo principale per generare questi dati è attraverso "motion capture" e "operazioni remote in VR". Questo metodo di raccolta dati è estremamente costoso e poco efficiente, e la quantità di dati contribuita non è sufficiente. Inoltre, questi dati provenienti da metodi di raccolta speciali spesso mancano di "generalizzabilità". L'addestramento dei robot avviene spesso in ambienti puliti e controllati: sul tavolo ci sono alcuni oggetti comuni (bottiglie, bicchieri, mattoncini). Ma nella realtà: il bicchiere potrebbe essere semitrasparente, riflettente, o coperto a metà da un fazzoletto. L'ambiente domestico o industriale presenta vari disturbi (oggetti sparsi, rumori, persone che passano). I dati di addestramento mancano di queste "situazioni a coda lunga", quindi una volta che l'ambiente cambia, il robot diventa "stupido".
4,66K