Uma lição importante que a ARC-AGI internalizou, mas que muitos outros não, é que o desempenho de referência é uma função do cálculo em tempo de teste. @OpenAI publica resultados de referência em um único número porque é mais simples e as pessoas esperam vê-lo, mas idealmente todas as avaliações teriam um eixo x.