Por que os robôs parecem tão bobos? Combinando com a recente série de fantasia que assisti, "Transformar um demônio em humano não é tão simples", "Transformar um humano em aço" também é assim. As duas partes mais importantes de um robô são a mente e o corpo. Simplificando, sua "bobeira" está na substituição do ser humano; sua mente é um pouco inferior e seu corpo também. Este artigo abordará primeiro a parte superior, a mente 🧠. Como a mente pode se tornar mais inteligente? Precisa de uma quantidade imensa de dados para treinamento. O modelo de linguagem do robô possui tanto VLM (modelo de linguagem visual) quanto LLM (modelo de linguagem grande). Por que os robôs precisam de VLM? Porque o modelo de linguagem não tem olhos, só pode "ouvir" mas não vê o mundo. Por exemplo, se você disser "ajude-me a pegar o copo de água à esquerda na mesa", o robô precisa "ver" para agir. Apenas um modelo visual também não é suficiente; o modelo visual pode reconhecer objetos, mas não entende a linguagem e a intenção humanas. VLM = fusão do cérebro e dos olhos Instruções humanas (linguagem) + percepção ambiental (visual) → transformação unificada em um plano de ação. O que estamos acostumados a ver em carros autônomos é, na verdade, VLM. Apenas os dados que os carros autônomos precisam aprender são muito menos. Afinal, o robô humanoide imita os humanos, e a diversidade e complexidade de seus cenários de aplicação são de uma dimensão diferente. E na formação do VLM, a quantidade de dados necessária para o robô e a quantidade de dados reais ainda têm uma enorme diferença. Atualmente, a principal forma de gerar esses dados é através de "captura de movimento" e "operação remota em VR". Esse método de coleta de dados é extremamente caro e ineficiente, e a quantidade de dados contribuída também não é suficiente. Ao mesmo tempo, esses dados provenientes de métodos de coleta especiais geralmente carecem de "generalização". O treinamento de robôs muitas vezes ocorre em ambientes limpos e controlados: alguns objetos comuns (garrafas, copos, blocos) são colocados sobre a mesa. Mas na realidade: o copo pode ser semi-transparente, refletivo, ou estar parcialmente coberto por um guardanapo. O ambiente em casa/fábrica tem várias interferências (bagunça, ruído, pessoas passando). Os dados de treinamento carecem dessa "situação de cauda longa", então, uma vez que o ambiente muda, o robô se torna "bobo".
4,65K