Важный урок, который усвоил ARC-AGI, но не многие другие, заключается в том, что производительность по бенчмаркам является функцией вычислений во время тестирования. @OpenAI публикует результаты бенчмарков в виде одного числа, потому что это проще и люди ожидают это увидеть, но в идеале все оценки должны иметь ось x.