Universell resonemangsmodell Universella Transformers krossar vanliga Transformers på resonemangsuppgifter. Men varför? Tidigare arbete tillskrev framgångarna avancerade arkitektoniska innovationer som hierarkiska designer och komplexa grindmekanismer. Men dessa forskare fann en enklare förklaring. Denna nya forskning visar att prestandavinsterna på ARC-AGI främst kommer från två ofta förbisedda faktorer: återkommande induktiv bias och stark icke-linjäritet. Att tillämpa en enda transformation upprepade gånger fungerar mycket bättre än att stapla olika lager för resonemangsuppgifter. Med endast 4x parametrar uppnår en universell transformator 40 % pass@1 på ARC-AGI 1. Vaniljtransformers med 32x parametrar får bara 23,75 %. Att helt enkelt skala djup eller bredd i standardtransformatorer ger avtagande avkastning och kan till och med försämra prestandan. De introducerar Universal Reasoning Model (URM), som förstärker detta med två tekniker. Först lägger ConvSwiGLU till en djupt kort konvolution efter MLP-expansionen, där lokal tokenblandning injiceras i den icke-linjära vägen. För det andra hoppar trunkerad backpropagation genom loopar över gradientberäkningar för tidiga rekurrenta iterationer, vilket stabiliserar optimeringen. Resultat: 53,8 % pass@1 på ARC-AGI 1, upp från 40 % (TRM) och 34,4 % (HRM). På ARC-AGI 2 når URM 16 % pass@1, nästan tredubblar HRM och mer än fördubblar TRM. Sudoku-träffsäkerheten når 77,6%. Ablationer: - Borttagning av korta konvolutioner minskar pass@1 från 53,8 % till 45,3 %. Att ta bort trunkerad backpropagation sänker den till 40%. - Att ersätta SwiGLU med enklare aktiveringar som ReLU sänker prestandan till 28,6%. - Att ta bort uppmärksamhet helt kollapsar noggrannheten till 2%. Den rekursiva strukturen omvandlar beräkning till effektivt djup. Standardtransformatorer spenderar FLOPs på redundant förfining i högre lager. Rekurerande beräkningar koncentrerar samma budget på iterativt resonemang. Komplext resonemang gynnas mer av iterativ beräkning än av skala. Små modeller med rekursiv struktur presterar bättre än stora statiska modeller på uppgifter som kräver flerstegsabstraktion.