El Atari 2600 solía ser el estándar dorado para los agentes de IA durante mi tiempo de doctorado. Una sola red neuronal capaz de jugar más de 50 juegos de Atari sería considerada asombrosa. Los modelos luchaban por mapear una pantalla pixelada en escala de grises de 84x84 a unos pocos botones. Luego, OpenAI Five (Dota) y AlphaStar de DeepMind elevaron el nivel, superando a los mejores campeones del mundo en Esports. Sin embargo, se sobreajustaron a un solo entorno virtual a la vez. Cambiar cualquier cosa rompería el modelo al instante. Los humanos son extraordinariamente buenos adaptándose a físicas y reglas muy diferentes, algo que sigue eludiendo a nuestros LLMs más avanzados, a escala de billones. Piensa en los 1000 juegos como 1000 simulaciones. Cuantos más mundos virtuales pueda adaptar un agente, mejor desarrollará el razonamiento encarnado, la percepción y la coordinación motora. Todas piezas críticas en el gran rompecabezas de la robótica. Al hacer de código abierto el modelo NitroGen y la API de Gym, servimos al mismo objetivo que AlphaGo, AlphaStar, OpenAI Five y recientemente Google SIMA: no quitar la diversión de esos juegos, sino resaltar las limitaciones de la IA moderna, proporcionar una base sólida y crear un nuevo estándar - "Atari 2.0" - para medir el progreso en consecuencia.