Ik heb net het nieuwe LeJEPA-paper van Yann LeCun en Randall Balestriero gelezen. Ik was benieuwd naar waar Yann de laatste tijd mee bezig is, vooral gezien al zijn kritiek op LLM's (waar ik het niet mee eens ben, omdat ik denk dat LLM's blijven verbeteren en ons vrij snel naar ASI zullen brengen). Hoe dan ook, er zijn al verschillende discussies op X over het paper en wat het introduceert. De korte versie is dat het een principiële, theoretisch onderbouwde en spaarzame benadering van zelfgestuurd leren is die een complexe verzameling van ad-hoc, hacky heuristieken vervangt om mode-collapse te voorkomen, wat de vloek van zelfgestuurd leren is. Dat is waar het model in de fout gaat en begint om alle invoer naar bijna identieke embeddings of naar een smalle subruimte van embeddings te mappen, waardoor alle rijkdom van het probleem wordt samengevoegd in een pathologisch eenvoudige en verkeerde overeenkomst. De eerste pijler van de nieuwe benadering is hun bewijs dat isotrope Gaussische verdelingen uniek het ergste geval van downstream voorspelling risico minimaliseren. Zodra ik dat las, dacht ik meteen aan CMA-ES, het beste beschikbare black-box optimalisatie-algoritme voor wanneer je geen toegang hebt tot de gradient van de functie die je probeert te minimaliseren, maar alleen (dure/trage) functie-evaluaties kunt doen. Nikolaus Hansen werkt al aan CMA-ES sinds hij het in 1996 introduceerde. Ik ben altijd gefascineerd geweest door deze benadering en heb het met veel succes gebruikt om hyperparameters van diepe neurale netwerken efficiënt te verkennen in 2011 in plaats van inefficiënte grid searches te doen. Hoe dan ook, de reden waarom ik het ter sprake breng is omdat er een opvallende parallel en diepe verbinding is tussen die benadering en de kern van LeJEPA. CMA-ES zegt: Begin met een isotrope Gaussische omdat het de maximale entropie (minst bevooroordeelde) verdeling is, gegeven alleen variantiebeperkingen. Pas dan de covariantie aan om de geometrie van het probleem te leren. LeJEPA zegt: Behoud een isotrope Gaussische omdat het de maximale entropie (minst bevooroordeelde) verdeling is voor onbekende toekomstige taken. Beiden erkennen dat isotropie optimaal is onder onzekerheid om drie redenen: Het maximale entropieprincipe; Onder alle verdelingen met vaste variantie heeft de isotrope Gaussische maximale entropie; Dat wil zeggen, het maakt de minste aannames. Er is geen directionele bias; Gelijke variantie in alle richtingen betekent dat je je niet vooraf verbindt aan een bepaalde probleemstructuur. Je krijgt de optimale worst-case; Minimaliseer de maximale spijt over alle mogelijke probleemgeometrieën. Dus wat is het verschil? Het komt neer op de timing van de aanpassing. CMA-ES kan zich aanpassen tijdens de optimalisatie; het begint isotroop maar wordt dan anisotroop naarmate het het specifieke optimalisatielandschap leert. In tegenstelling tot dat moet LeJEPA isotroop blijven omdat het zich voorbereidt op onbekende downstream taken die nog niet zijn gezien. ...