Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Universeel Redeneringsmodel
Universele Transformers verslaan standaard Transformers op redeneringstaken.
Maar waarom?
Eerdere werken hebben de verbeteringen toegeschreven aan uitgebreide architectonische innovaties zoals hiërarchische ontwerpen en complexe poortmechanismen.
Maar deze onderzoekers vonden een eenvoudigere verklaring.
Dit nieuwe onderzoek toont aan dat de prestatieverbeteringen op ARC-AGI voornamelijk voortkomen uit twee vaak over het hoofd geziene factoren: terugkerende inductieve bias en sterke non-lineariteit.
Het herhaaldelijk toepassen van een enkele transformatie werkt veel beter dan het stapelen van verschillende lagen voor redeneringstaken.
Met slechts 4x parameters behaalt een Universele Transformer 40% pass@1 op ARC-AGI 1. Vanille Transformers met 32x parameters scoren slechts 23,75%. Gewoon het vergroten van de diepte of breedte in standaard Transformers levert afnemende rendementen op en kan zelfs de prestaties verslechteren.
Ze introduceren het Universele Redeneringsmodel (URM), dat dit verbetert met twee technieken. Ten eerste voegt ConvSwiGLU een dieptegewijze korte convolutie toe na de MLP-uitbreiding, waardoor lokale tokenmixing in het niet-lineaire pad wordt geïnjecteerd. Ten tweede slaat Truncated Backpropagation Through Loops de gradientberekening over voor vroege terugkerende iteraties, waardoor de optimalisatie wordt gestabiliseerd.
Resultaten: 53,8% pass@1 op ARC-AGI 1, omhoog van 40% (TRM) en 34,4% (HRM). Op ARC-AGI 2 bereikt URM 16% pass@1, bijna verdrievoudigt HRM en meer dan verdubbelt TRM. De nauwkeurigheid van Sudoku bereikt 77,6%.
Ablaties:
- Het verwijderen van de korte convolutie laat pass@1 dalen van 53,8% naar 45,3%. Het verwijderen van de getrimde terugpropagatie laat het dalen naar 40%.
- Het vervangen van SwiGLU door eenvoudigere activaties zoals ReLU laat de prestaties kelderen naar 28,6%.
- Het volledig verwijderen van aandacht softmax laat de nauwkeurigheid instorten naar 2%.
De terugkerende structuur zet rekenkracht om in effectieve diepte. Standaard Transformers besteden FLOPs aan overbodige verfijning in hogere lagen. Terugkerende berekening concentreert hetzelfde budget op iteratieve redenering.
Complexe redenering profiteert meer van iteratieve berekening dan van schaal. Kleine modellen met een terugkerende structuur presteren beter dan grote statische modellen op taken die meerdere stappen van abstractie vereisen.

Boven
Positie
Favorieten
