درس مهم استوعبته ARC-AGI، لكن ليس الكثيرون غيره، هو أن أداء المعيار هو دالة لحوسبة وقت الاختبار. @OpenAI ينشر نتائج مرجعية برقم واحد لأنه أبسط ويتوقع الناس رؤيتها، لكن من المثالي أن يكون كل التقييمات محور x.