Pelajaran penting yang telah diinternalisasi oleh ARC-AGI, tetapi tidak banyak yang lain, adalah bahwa kinerja benchmark adalah fungsi komputasi waktu pengujian. @OpenAI menerbitkan hasil tolok ukur angka tunggal karena lebih sederhana dan orang berharap untuk melihatnya, tetapi idealnya semua EVAL akan memiliki sumbu x.