Una lezione importante che ARC-AGI ha interiorizzato, ma che non molti altri hanno, è che le prestazioni di riferimento sono una funzione del calcolo al momento del test. @OpenAI pubblica risultati di benchmark con un numero singolo perché è più semplice e la gente si aspetta di vederlo, ma idealmente tutte le valutazioni dovrebbero avere un asse x.