Una lección importante que ARC-AGI ha interiorizado, pero que no muchos otros han hecho, es que la performance de benchmark es función del cálculo en tiempo de prueba. @OpenAI publica resultados de benchmarks de números únicos porque es más sencillo y la gente espera verlo, pero idealmente todas las evaluaciones tendrían un eje x.