Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hallo! Eine neue Methode, um neuronale Netzwerke zu trainieren: basierend auf einer Umstellung alter AI-Ideen gemischt mit dem "Save Scumming" aus Videospielen.
Es ist eine Möglichkeit, einen "Kick" zu erzwingen, der bestimmte Modelltypen (insbesondere kleine oder exotische Topologien) retten kann, wenn sie feststecken.
Blind. Evolutionär. Druck.

Ich nenne es "Frustration": es ist wie das Neustarten eines gespeicherten Videospiels und das erneute Versuchen des Bosskampfes.
Wie?
Nehmen Sie eine letzte bekannte gute (LKG) Epoche, DANN töten Sie ein Neuron. Dann neu trainieren.
Im Gegensatz zu Dropout ist der Schaden kein vorübergehendes Rauschen während der Chargen.
Wir brechen das Modell, nachdem es sich verbessert hat.

In Frustration (Persistente [Stochastische] Ablation) ist der Schaden ein Schlagloch, das während der nächsten Epoche gleichzeitig vermieden und gefüllt werden muss.
2 Strategien: Alle Gewichte (wie in einer versteckten Schicht) für ein Neuron töten oder nur die eingehenden (wie für einen Ausgabewert).

Wir haben mit einfachen MLP-Netzwerktopologien getestet, die von Millionen von Parametern bis zu Hunderten reichen, und ihre "Trainierbarkeit" basierend auf der Breite (# der Neuronen) im Vergleich zur Tiefe (# der Schichten) katalogisiert.
PSA hat einige Modelle gerettet, die Dropout und Gewichtszusammenbruch nicht konnten: ein chaotisches Regime (in Blau).

Dies funktioniert sogar in fehlerhaften Designs, in denen das Vanishing Gradient Problem die Rückpropagation nutzlos macht.
(Welches, wenn man keine Skip-Verbindungen hat, nicht so viele Schichten sind!)
Außerdem kann man den Schaden aufteilen und mehrere beschädigte LKGs gleichzeitig auf verschiedenen GPUs trainieren.

Das Papier spiegelt den ersten Proof-of-Concept wider, und ja, die ganze Idee hat *viele* Einschränkungen.
Besonders wie rechnerisch verschwenderisch der Riegel ist, oder dass es auf dem MNIST-Datensatz (ein Spielzeug) und nicht auf ImageNet war.
Aber gute Nachrichten! Frühe ResMLP-Tests zeigen vielversprechende Ergebnisse!

Wir haben versucht, gründlich zu sein. Wir haben 98 Topologien getestet, viele davon mit konfigurierten Parameterübereinstimmungen (verschiedene Dimensionen, gleiche resultierende Parameteranzahl).
Wir haben 3 verschiedene PSA-Techniken gegen 3 Kontrollen in jeweils 10 Versuchen gemessen.
Insgesamt 5.880 Versuche.
Reproduzierbar.

Selbst unter Bedingungen, in denen das Vanishing Gradient Problem das Training unmöglich hätte machen sollen (wie in einem 18x18 einfachen MLP), konnte PSA trainieren, indem es die Ausgabewerte auf MNIST angreift.
Glaubst du mir nicht? Probier es aus und sieh selbst!

Hier gibt es jede Menge coole kleine "Aha"-Momente. Bedenke, dass keine der zugrunde liegenden Ideen neu ist. Wir haben sie nur auf eine neue Weise angeordnet, um etwas auszuprobieren, das wirklich nur jetzt möglich ist, da GPUs so leistungsstark sind.

Zukünftige Arbeiten:
• Reproduktion der ursprünglichen Tests auf ResMLP, CNN und Transformatoren (ResMLP behebt VGP, aber bei pathologischen Topologien scheint PSA immer noch zu helfen)
• Versuch auf ImageNet <- kostspielig, aber das ist der echte Beweis, den wir brauchen.
Beobachtungen:
• Das ständige Töten des gleichen Ausgabe-Logits erzeugt konsequent "Anti-Experten"-Modelle, und wenn man sich ihre Verwirrungsmatrizen ansieht, kann man Dyslexie in Aktion sehen (töte 2 und die Klassifizierung überläuft auf 5, 7 und 8)
• Wir müssen nicht bei stochastischen Angriffen bleiben
Warum ist das wertvoll?
• Wenn es mit größeren Datensätzen und modernen Modellarchitekturen funktioniert, hoffe ich, dass es ein wertvolles Werkzeug beim Aufbau von kleinen Sprachmodellen (SLMs) sein könnte.
GitHub mit dem Papier & Code hier:

1,52K
Top
Ranking
Favoriten

