Une leçon importante que ARC-AGI a intériorisée, mais que peu d'autres ont, est que la performance de référence est une fonction du calcul au moment du test. @OpenAI publie des résultats de référence sous forme de chiffres uniques parce que c'est plus simple et que les gens s'attendent à les voir, mais idéalement toutes les évaluations auraient un axe des x.