Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hej! Ett nytt sätt att träna neurala nätverk: baserat på en omarrangemang av gamla AI-idéer blandat med videospels-"save scumming".
Det är ett sätt att tvinga fram en "kick" som kan rädda vissa modelltyper (särskilt små eller exotiska topologier) när de fastnar.
Blind. Evolutions. Tryck.

Jag kallar det "Frustration": det är som att starta om ett sparat videospel och försöka om bossstriden.
Hur?
Ta en Last Known Good (LKG)-epok, SEDAN dödar du en neuron. Sedan tränar du om.
Till skillnad från Dropout är skadan inte övergående brus under batcher.
Vi bryter modellen EFTER att den förbättrats.

I Frustration (Persistent [Stochasttic] Ablation) är skadan ett potthål som måste undvikas och fyllas igen samtidigt under nästa epok.
2 strategier: döda alla vikter (som i ett dolt lager) för en neuron, eller bara den inkommande (som för en utgångslogit).

Vi testade med enkla MLP-nätverkstopologier, från miljontals parametrar till hundratals, och katalogiserade deras "träningsbarhet" baserat på bredd (# av neuroner) kontra djup (# av lager).
PSA räddade några modeller som Dropout och Weight Decay inte kunde: ett kaotiskt regim (i blått).

Detta fungerar även i trasiga konstruktioner där Vanishing Gradient-problemet gör backpropagation värdelös.
(Vilket, när man inte har hoppanslutningar, inte är så många lager!)
Dessutom kan du skärva skadan och träna flera korrupta LKG:er samtidigt över olika GPU:er.

Artikeln speglar det första proof-of-concept, och ja, hela idén har *många* begränsningar.
Särskilt hur beräkningsmässigt slösaktig spärran är, eller att den låg på MNIST-datasetet (en leksak) och inte på ImageNet.
Men goda nyheter! Tidiga ResMLP-tester visar lovande resultat!

Vi försökte vara grundliga. Vi testade 98 topologier, många av dem med parametermatchningskonfigurationer (olika dimensioner, samma resulterande paramantal).
Vi mätte 3 olika PSA-tekniker mot 3 kontroller, över 10 försök vardera.
Totalt 5 880 försök.
Reproducerbara.

Även under förhållanden där Vanishing Gradient-problemet borde ha gjort träning omöjlig (som i en enkel MLP på 18x18), kunde PSA träna genom att attackera utdataloggarna på MNIST.
Tror du mig inte? Prova och se!

Det finns massor av coola små "aha"-ögonblick här. Tänk på att inga av de underliggande idéerna är nya. Vi har bara arrangerat dem på ett nytt sätt för att prova något som egentligen bara är möjligt nu när GPU:er är så kraftfulla.

Framtida arbete:
• Återgivning av de ursprungliga testerna på ResMLP, CNN och Transformers (ResMLP fixar VGP, men för patologiska topologier verkar PSA fortfarande hjälpa)
• Att prova det på ImageNet < dyrt, men detta är det verkliga beviset vi behöver.
Observationer:
• Att döda samma output-logit konsekvent skapar "anti-expert"-modeller, och när du tittar på deras förvirringsmatriser kan du se dyslexi i aktion (döda 2 och klassificeringen överflödar till 5, 7 och 8)
• Vi behöver inte hålla oss till stokastiska attacker
Varför är detta värdefullt?
• Om det fungerar på större datamängder och moderna modellarkitekturer hoppas jag att det kan vara ett värdefullt verktyg för att bygga Small Language Models (SLM).
GitHub med papper och kod här:

1,53K
Topp
Rankning
Favoriter

