Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De Universele Gewicht Subruimte Hypothese
Onze bevindingen bieden nieuwe inzichten in de intrinsieke organisatie van informatie binnen diepe netwerken en roepen belangrijke vragen op over de mogelijkheid om deze universele subruimtes te ontdekken zonder de noodzaak van uitgebreide gegevens en rekenbronnen.
... door laag-gewijze spectrale decomposities uit te voeren en alleen de leidende hoofdrichtingen te behouden, kan een nauwkeurige benadering van deze universele subruimtes worden geëxtraheerd. Empirisch komt dit gedrag breed naar voren: in volledig gefinetunede modellen en LoRA-gebaseerde adapters, in modellen die vanaf nul zijn getraind, in zowel generatieve als discriminerende instellingen, en in multimodale configuraties. Bovendien generaliseren de benaderde subruimtes naar taken buiten de distributie, waar het projecteren van modellen en het leren van slechts een kleine set coëfficiënten voldoende is om sterke prestaties te herstellen. Dit maakt het mogelijk om zich aan te passen aan nieuwe taken zonder opnieuw te trainen of volledige gewichten op te slaan, en ondersteunt robuust multi-task leren, schaalbare fine-tuning en principiële model-samenvoeging binnen een enkel verenigend kader.
De praktische implicaties zijn aanzienlijk. Door een gemeenschappelijke set van laag-gewijze hoofdrichtingen te hergebruiken en alleen lichte coëfficiënten per taak te leren, kunnen grote modellen worden uitgebreid en bediend met dramatisch verminderde reken-, geheugen- en engineeringlasten.
... kunnen we effectief beschikbare voorgetrainde modellen recyclen en vervangen door een universeel subruimte model waarbij elk individu wordt vertegenwoordigd door een spaarzame set coëfficiënten. In dit gedeelte tonen we een reeks experimenten waarin we de universele subruimtes gebruiken om nieuwe taken te leren door de componenten te bevriezen en eenvoudig de coëfficiënten te leren met behulp van gradient descent. We ontdekken dat, aangezien we alleen de coëfficiënten leren, dit het aantal parameters dat nodig is om de nieuwe modellen te trainen drastisch vermindert. Verder, aangezien deze coëfficiënten eenvoudigweg lineaire schaalwaarden zijn, is de optimalisatie soepeler en sneller.

Boven
Positie
Favorieten
