Por que os robôs parecem burros? Combinado com a série de TV de fantasia que assisti recentemente, "Monstros não são tão simples", e o mesmo vale para "Steel to Human". As duas partes mais importantes de um robô, a mente e o corpo. Simplificando, sua estupidez é que, na questão de ser um substituto para ser uma pessoa, sua mente é um pouco pior, e seu corpo também é um pouco pior. Este artigo fala primeiro sobre a primeira metade, a mente 🧠 . Como se tornar inteligente requer uma enorme quantidade de treinamento de dados. Os modelos de linguagem dos robôs incluem VLM (modelo de linguagem de visão) e LLM (modelo de linguagem grande). Por que os robôs precisam de VLM? Como os modelos de linguagem não têm olhos, eles só podem "entender", mas não podem ver o mundo. Por exemplo, se você disser: "Ajude-me a pegar o copo d'água no lado esquerdo da mesa", o robô deve "ver" para agir. Os modelos visuais por si só não são suficientes, eles podem reconhecer objetos, mas não entendem a linguagem e as intenções humanas. VLM = Fusão do cérebro e do olho Instruções humanas (linguagem) + percepção ambiental (visão) → unificadas em planos de ação. A direção autônoma a que estamos acostumados agora é, na verdade, VLM. É só que a direção autônoma precisa aprender muito menos dados. Afinal, os robôs humanóides imitam os humanos, e a diversidade e complexidade de seus cenários de aplicação são a próxima dimensão. No treinamento VLM, ainda há uma enorme lacuna entre a quantidade de dados exigida pelo robô e a quantidade real de dados. As principais formas de gerar esses dados são "captura de movimento" e "operação remota VR". Este método de coleta de dados é extremamente caro + ineficiente, e a quantidade de dados contribuídos não é suficiente. Ao mesmo tempo, esses dados de métodos especiais de coleta geralmente carecem de "generalização". O treinamento do robô geralmente é feito em um ambiente limpo e controlado: alguns objetos comuns (garrafas, xícaras, blocos) são colocados sobre a mesa. Mas, na realidade: o copo pode ser translúcido, reflexivo e meio bloqueado por uma toalha de papel. Várias distrações (desordem, barulho, pessoas andando por aí) no ambiente doméstico / fábrica. Os dados de treinamento não têm essa "situação de cauda longa", então, uma vez que o ambiente muda, o robô é "estúpido".
4,65K