Model Rozumowania Uniwersalnego Uniwersalne Transformatory przewyższają standardowe Transformatory w zadaniach rozumowania. Ale dlaczego? Poprzednie prace przypisywały zyski skomplikowanym innowacjom architektonicznym, takim jak hierarchiczne projekty i złożone mechanizmy bramkowe. Jednak ci badacze znaleźli prostsze wyjaśnienie. Nowe badania pokazują, że zyski wydajności w ARC-AGI pochodzą głównie z dwóch często pomijanych czynników: rekurencyjnego indukcyjnego biasu i silnej nieliniowości. Stosowanie pojedynczej transformacji wielokrotnie działa znacznie lepiej niż układanie odrębnych warstw w zadaniach rozumowania. Zaledwie 4x parametry, Uniwersalny Transformator osiąga 40% pass@1 w ARC-AGI 1. Standardowe Transformatory z 32x parametrami uzyskują tylko 23,75%. Proste zwiększanie głębokości lub szerokości w standardowych Transformatorach przynosi malejące zyski, a nawet może pogorszyć wydajność. Wprowadzają Model Rozumowania Uniwersalnego (URM), który wzmacnia to za pomocą dwóch technik. Po pierwsze, ConvSwiGLU dodaje konwolucję krótką o głębokości po rozszerzeniu MLP, wprowadzając lokalne mieszanie tokenów do nieliniowej ścieżki. Po drugie, Truncated Backpropagation Through Loops pomija obliczenia gradientu dla wczesnych iteracji rekurencyjnych, stabilizując optymalizację. Wyniki: 53,8% pass@1 w ARC-AGI 1, wzrost z 40% (TRM) i 34,4% (HRM). W ARC-AGI 2, URM osiąga 16% pass@1, niemal potrajając HRM i więcej niż podwajając TRM. Dokładność Sudoku osiąga 77,6%. Ablacje: - Usunięcie krótkiej konwolucji obniża pass@1 z 53,8% do 45,3%. Usunięcie skróconej propagacji wstecznej obniża to do 40%. - Zastąpienie SwiGLU prostszymi aktywacjami, takimi jak ReLU, drastycznie obniża wydajność do 28,6%. - Całkowite usunięcie softmax uwagi całkowicie załamuje dokładność do 2%. Struktura rekurencyjna przekształca obliczenia w efektywną głębokość. Standardowe Transformatory wydają FLOPy na zbędne udoskonalenia w wyższych warstwach. Obliczenia rekurencyjne koncentrują ten sam budżet na iteracyjnym rozumowaniu. Skomplikowane rozumowanie korzysta bardziej z obliczeń iteracyjnych niż ze skali. Małe modele ze strukturą rekurencyjną przewyższają duże modele statyczne w zadaniach wymagających wieloetapowej abstrakcji.