ARC-AGI'nin içselleştirdiği ama çok az kişinin benimsediği önemli bir ders, kıyaslama performansının test zamanı hesaplamasının bir fonksiyonu olduğudur. @OpenAI, tek sayılı kıyaslama sonuçları yayımlıyor çünkü daha basit ve insanlar bunu görmeyi bekliyor, ancak ideal olarak tüm değerlendirmelerde bir x ekseni olmalı.