Důležitou lekcí, kterou si ARC-AGI osvojil, ale mnoho jiných si ji neosvojilo, je, že benchmarkový výkon je funkcí výpočetního výkonu v době testování. @OpenAI zveřejňuje výsledky benchmarků s jedním číslem, protože je jednodušší a lidé očekávají, že je uvidí, ale ideálně by všechny hodnocení měly osu x.