En viktig lærdom som ARC-AGI har internalisert, men ikke mange andre har, er at benchmark-ytelse er en funksjon av testtidsberegning. @OpenAI publiserer enkelttalls benchmarkresultater fordi det er enklere og folk forventer å se det, men ideelt sett bør alle evalueringer ha en x-akse.