Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe gerade das neue LeJEPA-Papier von Yann LeCun und Randall Balestriero gelesen. Ich war neugierig, woran Yann in letzter Zeit gearbeitet hat, insbesondere angesichts all seiner Kritiken an LLMs (mit denen ich nicht einverstanden bin, da ich denke, dass LLMs sich weiter verbessern werden und uns ziemlich bald zu ASI führen werden).
Wie auch immer, es gibt bereits mehrere Diskussionen auf X über das Papier und was es einführt. Die kurze Version ist, dass es sich um einen prinzipiellen, theoretisch gerechtfertigten und sparsamen Ansatz für selbstüberwachtes Lernen handelt, der ein komplexes Durcheinander von ad-hoc, hacky Heuristiken ersetzt, um den Modus-Kollaps zu verhindern, der das selbstüberwachte Lernen plagt.
Das ist der Punkt, an dem das Modell versagt und beginnt, alle Eingaben auf nahezu identische Einbettungen oder auf einen engen Unterraum von Einbettungen abzubilden, wodurch die gesamte Vielfalt des Problems in eine pathologisch einfache und falsche Entsprechung zusammenfällt.
Die erste Säule des neuen Ansatzes ist ihr Beweis, dass isotrope Gaußsche Verteilungen einzigartig das Worst-Case-Risiko der Vorhersage im Nachhinein minimieren.
Sobald ich das gelesen habe, dachte ich sofort an CMA-ES, den besten verfügbaren Black-Box-Optimierungsalgorithmus, wenn man keinen Zugang zum Gradienten der Funktion hat, die man minimieren möchte, sondern nur (teure/langsame) Funktionsauswertungen durchführen kann.
Nikolaus Hansen arbeitet seit seiner Einführung im Jahr 1996 an CMA-ES. Ich war schon immer von diesem Ansatz fasziniert und habe ihn 2011 mit viel Erfolg genutzt, um Hyperparameter von tiefen neuronalen Netzen effizient zu erkunden, anstatt ineffiziente Gitter-Suchen durchzuführen.
Wie auch immer, der Grund, warum ich es erwähne, ist, dass es eine auffällige Parallele und tiefe Verbindung zwischen diesem Ansatz und dem Kern von LeJEPA gibt.
CMA-ES sagt: Beginne mit einer isotropen Gaußverteilung, weil es die maximale Entropie (am wenigsten voreingenommene) Verteilung ist, die nur auf Varianzbeschränkungen basiert. Dann passe die Kovarianz an, um die Geometrie des Problems zu lernen.
LeJEPA sagt: Behalte eine isotrope Gaußverteilung bei, weil es die maximale Entropie (am wenigsten voreingenommene) Verteilung für unbekannte zukünftige Aufgaben ist.
Beide erkennen, dass Isotropie unter Unsicherheit aus drei Gründen optimal ist:
Das Prinzip der maximalen Entropie; Unter allen Verteilungen mit fester Varianz hat die isotrope Gaußverteilung die maximale Entropie; d.h. sie trifft die wenigsten Annahmen.
Es gibt keine gerichtete Voreingenommenheit; Gleiche Varianz in alle Richtungen bedeutet, dass man sich nicht auf eine bestimmte Problemstruktur festlegt.
Man erhält die worst-case Optimalität; Minimiere das maximale Bedauern über alle möglichen Problemgeometrien.
Was ist also der Unterschied? Es kommt auf den Anpassungszeitpunkt an. CMA-ES kann sich während der Optimierung anpassen; es beginnt isotrop, wird dann aber anisotrop, während es die spezifische Optimierungslandschaft lernt.
Im Gegensatz dazu muss LeJEPA isotrop bleiben, weil es sich auf unbekannte nachgelagerte Aufgaben vorbereitet, die noch nicht gesehen wurden.
...

Top
Ranking
Favoriten

