O Atari 2600 costumava ser o padrão de ouro para agentes de IA durante o meu doutorado. Uma única rede neural capaz de jogar mais de 50 jogos do Atari seria considerada impressionante. Os modelos lutavam para mapear uma tela pixelizada em escala de cinza de 84x84 para alguns botões. Então, o OpenAI Five (Dota) e o AlphaStar da DeepMind elevaram o nível, superando os melhores campeões do mundo em Esports. No entanto, eles se ajustavam excessivamente a um único ambiente virtual de cada vez. Mudar qualquer coisa quebraria o modelo instantaneamente. Os humanos são extraordinariamente bons em se adaptar a físicas e regras muito diferentes - algo que continua a escapar aos nossos LLMs mais avançados, em escala de trilhões. Pense nos 1000 jogos como 1000 simulações. Quanto mais mundos virtuais um agente puder se adaptar, melhor ele desenvolve raciocínio incorporado, percepção e coordenação motora. Todas peças críticas no grande quebra-cabeça da robótica. Ao abrir o código-fonte do modelo NitroGen e da API Gym, servimos ao mesmo objetivo que o AlphaGo, AlphaStar, OpenAI Five e, recentemente, o Google SIMA: não tirar a diversão desses jogos, mas destacar as limitações da IA moderna, fornecer uma base sólida e criar um novo padrão - "Atari 2.0" - para medir o progresso de acordo.