L'Atari 2600 était autrefois le benchmark doré pour les agents d'IA pendant ma période de doctorat. Un seul réseau de neurones capable de jouer à plus de 50 jeux Atari serait considéré comme époustouflant. Les modèles avaient du mal à mapper un écran pixelisé en niveaux de gris de 84x84 à quelques boutons. Puis OpenAI Five (Dota) et AlphaStar de DeepMind ont élevé le niveau, battant les meilleurs champions du monde en Esports. Pourtant, ils se surajustaient à un seul environnement virtuel à la fois. Changer quoi que ce soit briserait instantanément le modèle. Les humains sont extraordinairement doués pour s'adapter à des physiques et des règles très différentes - quelque chose qui continue d'échapper à nos LLM les plus avancés, à l'échelle des trillions. Pensez aux 1000 jeux comme à 1000 simulations. Plus un agent peut s'adapter à des mondes virtuels, mieux il développe le raisonnement incarné, la perception et la coordination motrice. Tous des éléments critiques dans le grand puzzle de la robotique. En open-sourçant le modèle NitroGen et l'API Gym, nous servons le même objectif qu'AlphaGo, AlphaStar, OpenAI Five, et récemment Google SIMA : ne pas enlever le plaisir de ces jeux, mais mettre en lumière les limitations de l'IA moderne, fournir une base solide et créer un nouveau benchmark - "Atari 2.0" - pour mesurer les progrès en conséquence.