Uma lição importante que o ARC-AGI internalizou, mas poucos outros internalizaram, é que o desempenho do benchmark é uma função do cálculo no tempo do teste. @OpenAI publica resultados de benchmarks de número único porque é mais simples e as pessoas esperam ver, mas idealmente todas as avaliações deveriam ter um eixo x.