DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Acabo de leer el nuevo artículo de LeJEPA de Yann LeCun y Randall Balestriero. He tenido curiosidad por saber en qué ha estado trabajando Yann últimamente, especialmente considerando todas sus críticas a los LLMs (con las que no estoy de acuerdo, ya que creo que los LLMs seguirán mejorando y nos llevarán a la ASI bastante pronto). De todos modos, ya hay varios hilos en X sobre el artículo y lo que introduce. La versión corta es que es un enfoque fundamentado, teóricamente justificado y parsimonioso para el aprendizaje auto-supervisado que reemplaza un complejo batiburrillo de heurísticas ad-hoc y chapuceras para prevenir el colapso de modo, que es la pesadilla del aprendizaje auto-supervisado. Ahí es donde el modelo se equivoca y comienza a mapear todas las entradas a incrustaciones casi idénticas o a un subespacio estrecho de incrustaciones, colapsando toda la riqueza del problema en una correspondencia patológicamente simple y errónea. El primer pilar del nuevo enfoque es su prueba de que las distribuciones gaussianas isotrópicas minimizan de manera única el riesgo de predicción en el peor de los casos. Tan pronto como leí eso, pensé inmediatamente en CMA-ES, el mejor algoritmo de optimización de caja negra disponible para cuando no tienes acceso al gradiente de la función que intentas minimizar, sino que solo puedes hacer evaluaciones de función (costosas/lentas). Nikolaus Hansen ha estado trabajando en CMA-ES desde que lo introdujo allá por 1996. Siempre me ha fascinado este enfoque y lo he utilizado con mucho éxito para explorar eficientemente los hiperparámetros de redes neuronales profundas en 2011 en lugar de hacer búsquedas en cuadrícula ineficientes. De todos modos, la razón por la que lo menciono es porque hay un paralelismo sorprendente y una conexión profunda entre ese enfoque y el núcleo de LeJEPA. CMA-ES dice: Comienza con una gaussiana isotrópica porque es la distribución de máxima entropía (menos sesgada) dada solo las restricciones de varianza. Luego adapta la covarianza para aprender la geometría del problema. LeJEPA dice: Mantén una gaussiana isotrópica porque es la distribución de máxima entropía (menos sesgada) para tareas futuras desconocidas. Ambos reconocen que la isotropía es óptima bajo incertidumbre por tres razones: El principio de máxima entropía; Entre todas las distribuciones con varianza fija, la gaussiana isotrópica tiene máxima entropía; Es decir, hace las menores suposiciones. No hay sesgo direccional; La varianza igual en todas las direcciones significa que no te estás comprometiendo previamente a ninguna estructura de problema particular. Obtienes optimalidad en el peor de los casos; Minimiza el arrepentimiento máximo en todas las geometrías de problema posibles. Entonces, ¿cuál es la diferencia? Se reduce al momento de adaptación. CMA-ES puede adaptarse durante la optimización; comienza isotrópico pero luego se vuelve anisotrópico a medida que aprende el paisaje de optimización específico. En contraste, LeJEPA tiene que permanecer isotrópico porque se está preparando para tareas futuras desconocidas que aún no se han visto. ...

Parte superior

Clasificación

Favoritos