DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je viens de lire le nouveau document LeJEPA de Yann LeCun et Randall Balestriero. J'ai été curieux de savoir sur quoi Yann travaillait dernièrement, surtout compte tenu de toutes ses critiques des LLM (avec lesquelles je ne suis pas d'accord, car je pense que les LLM continueront à s'améliorer et nous mèneront à l'ASI assez rapidement). Quoi qu'il en soit, il y a déjà plusieurs fils sur X à propos du document et de ce qu'il introduit. La version courte est qu'il s'agit d'une approche principielle, théoriquement justifiée et parcimonieuse de l'apprentissage auto-supervisé qui remplace un mélange complexe d'heuristiques ad hoc et bricolées pour prévenir l'effondrement de mode, qui est le fléau de l'apprentissage auto-supervisé. C'est là que le modèle se trompe et commence à mapper toutes les entrées à des embeddings presque identiques ou à un sous-espace étroit d'embeddings, réduisant toute la richesse du problème à une correspondance pathologiquement simple et erronée. Le premier pilier de la nouvelle approche est leur preuve que les distributions gaussiennes isotropes minimisent de manière unique le risque de prédiction en aval dans le pire des cas. Dès que j'ai lu cela, j'ai immédiatement pensé à CMA-ES, le meilleur algorithme d'optimisation boîte noire disponible lorsque vous n'avez pas accès au gradient de la fonction que vous essayez de minimiser, mais que vous ne pouvez faire que des évaluations de fonction (coûteuses/lentes). Nikolaus Hansen travaille sur CMA-ES depuis qu'il l'a introduit en 1996. J'ai toujours été fasciné par cette approche et l'ai utilisée avec beaucoup de succès pour explorer efficacement les hyper-paramètres des réseaux de neurones profonds en 2011 au lieu de faire des recherches en grille inefficaces. Quoi qu'il en soit, la raison pour laquelle j'en parle est qu'il y a un parallèle frappant et une connexion profonde entre cette approche et le cœur de LeJEPA. CMA-ES dit : Commencez avec une gaussienne isotrope car c'est la distribution d'entropie maximale (la moins biaisée) compte tenu uniquement des contraintes de variance. Ensuite, adaptez la covariance pour apprendre la géométrie du problème. LeJEPA dit : Maintenez une gaussienne isotrope car c'est la distribution d'entropie maximale (la moins biaisée) pour des tâches futures inconnues. Les deux reconnaissent que l'isotropie est optimale en cas d'incertitude pour trois raisons : Le principe de l'entropie maximale ; Parmi toutes les distributions avec variance fixe, la gaussienne isotrope a une entropie maximale ; c'est-à-dire qu'elle fait le moins d'assumptions. Il n'y a pas de biais directionnel ; Une variance égale dans toutes les directions signifie que vous ne vous engagez pas à une structure de problème particulière. Vous obtenez une optimalité dans le pire des cas ; Minimisez le regret maximum à travers toutes les géométries de problème possibles. Alors, quelle est la différence ? Cela se résume au timing d'adaptation. CMA-ES peut s'adapter pendant l'optimisation ; il commence isotrope mais devient ensuite anisotrope à mesure qu'il apprend le paysage d'optimisation spécifique. En revanche, LeJEPA doit rester isotrope car il se prépare à des tâches en aval inconnues qui n'ont pas encore été vues. ...

Meilleurs

Classement

Favoris