Universell resonneringsmodell Universelle Transformers knuser standard Transformers på resonnementsoppgaver. Men hvorfor? Tidligere arbeid tilskrev gevinstene til omfattende arkitektoniske innovasjoner som hierarkiske design og komplekse portmekanismer. Men disse forskerne fant en enklere forklaring. Denne nye forskningen viser at ytelsesgevinstene på ARC-AGI hovedsakelig skyldes to ofte oversette faktorer: rekurisjonerende induktiv bias og sterk ikke-linearitet. Å bruke én enkelt transformasjon gjentatte ganger fungerer langt bedre enn å stable separate lag for resonnementoppgaver. Med bare 4x parametere oppnår en universell transformator 40 % pass@1 på ARC-AGI 1. Vanilla Transformers med 32x parametere scorer bare 23,75 %. Å bare skalere dybde eller bredde i standard transformatorer gir avtagende avkastning og kan til og med forringe ytelsen. De introduserer Universal Reasoning Model (URM), som forsterker dette med to teknikker. Først legger ConvSwiGLU til en dybdevis kort konvolusjon etter MLP-utvidelsen, som injiserer lokal token-miksing i den ikke-lineære veien. For det andre hopper Truncated Backpropagation Through Loops over gradientberegning for tidlige rekurrente iterasjoner, noe som stabiliserer optimaliseringen. Resultater: 53,8 % pass@1 på ARC-AGI 1, opp fra 40 % (TRM) og 34,4 % (HRM). På ARC-AGI 2 når URM 16 % pass@1, nesten tredobler HRM og mer enn dobler TRM. Sudoku-nøyaktigheten treffer 77,6 %. Ablasjoner: - Fjerning av korte konvolusjoner faller pass@1 fra 53,8 % til 45,3 %. Fjerning av trunkert tilbakepropagasjon senker den til 40 %. - Å erstatte SwiGLU med enklere aktiveringer som ReLU senker ytelsen til 28,6 %. - Fjerning av oppmerksomhet softmax fullstendig kollapser nøyaktigheten til 2 %. Den rekurrente strukturen omdanner beregning til effektiv dybde. Standard Transformers bruker FLOP-er på redundant raffinering i høyere lag. Recurrent computation konsentrerer det samme budsjettet på iterativ resonnement. Kompleks resonnement drar mer nytte av iterativ beregning enn av skala. Små modeller med rekurrent struktur presterer bedre enn store statiske modeller på oppgaver som krever flertrinns abstraksjon.