O lecție importantă pe care ARC-AGI a integrat-o, dar nu mulți alții, este că performanța benchmark-ului este o funcție a calculului în timpul testului. @OpenAI publică rezultatele benchmark-urilor cu un singur număr pentru că este mai simplu și oamenii se așteaptă să le vadă, dar ideal ar fi ca toate evaluările să aibă o axă x.