Một bài học quan trọng mà ARC-AGI đã tiếp thu, nhưng không nhiều người khác có, là hiệu suất chuẩn là một hàm của tính toán thời gian kiểm tra. @OpenAI công bố kết quả chuẩn với một số duy nhất vì điều đó đơn giản hơn và mọi người mong đợi được thấy, nhưng lý tưởng nhất là tất cả các đánh giá sẽ có một trục x.