Eine wichtige Lektion, die ARC-AGI verinnerlicht hat, die aber nicht viele andere haben, ist, dass die Benchmark-Leistung eine Funktion der Rechenleistung zur Testzeit ist. @OpenAI veröffentlicht Einzelzahlen-Benchmark-Ergebnisse, weil es einfacher ist und die Leute erwarten, sie zu sehen, aber idealerweise sollten alle Bewertungen eine x-Achse haben.