Важливий урок, який ARC-AGI засвоїла, але мало хто інший, полягає в тому, що продуктивність бенчмарку залежить від обчислень під час тестування. @OpenAI публікує результати бенчмарку з одним числом, бо це простіше і люди очікують їх побачити, але ідеально було б, якби всі оцінки мали вісь x.