Acabo de leer el nuevo artículo de LeJEPA de Yann LeCun y Randall Balestriero. He tenido curiosidad por saber en qué ha estado trabajando Yann últimamente, especialmente considerando todas sus críticas a los LLM (con las que no estoy de acuerdo, ya que creo que los LLM seguirán mejorando y nos llevarán a ASI bastante pronto). De todos modos, ya hay varios hilos en X sobre el artículo y lo que introduce. La versión corta es que es un enfoque de principios, teóricamente justificado y parsimonioso para el aprendizaje autosupervisado que reemplaza una compleja mezcolanza de heurísticas ad-hoc y hackeadas para prevenir el colapso del modo, que es la pesadilla del aprendizaje autosupervisado. Ahí es donde el modelo se equivoca y comienza a mapear todas las entradas a incrustaciones casi idénticas o a un subespacio estrecho de incrustaciones, colapsando toda la riqueza del problema en una correspondencia patológicamente simple e incorrecta. El primer pilar del nuevo enfoque es su prueba de que las distribuciones gaussianas isotrópicas minimizan de manera única el riesgo de predicción descendente en el peor de los casos. Tan pronto como leí eso, inmediatamente pensé en CMA-ES, el mejor algoritmo de optimización de caja negra disponible para cuando no tiene acceso al gradiente de la función que está tratando de minimizar, pero solo puede hacer evaluaciones de funciones (costosas / lentas). Nikolaus Hansen ha estado trabajando en CMA-ES desde que lo introdujo en 1996. Siempre me ha fascinado este enfoque y lo utilicé con mucho éxito para explorar de manera eficiente los hiperparámetros de las redes neuronales profundas en 2011 en lugar de realizar búsquedas de cuadrícula ineficientes. De todos modos, la razón por la que lo menciono es porque hay un sorprendente paralelismo y una conexión profunda entre ese enfoque y el núcleo de LeJEPA. CMA-ES dice: Comience con un gaussiano isotrópico porque es la distribución de máxima entropía (menos sesgada) dadas solo las restricciones de varianza. Luego adapte la covarianza para aprender la geometría del problema. LeJEPA dice: Mantenga un gaussiano isotrópico porque es la distribución de entropía máxima (menos sesgada) para tareas futuras desconocidas. Ambos reconocen que la isotropía es óptima bajo incertidumbre por tres razones: El principio de máxima entropía; Entre todas las distribuciones con varianza fija, el gaussiano isotrópico tiene máxima entropía; Es decir, hace la menor cantidad de suposiciones. No hay sesgo direccional; La varianza igual en todas las direcciones significa que no se está comprometiendo previamente con ninguna estructura de problema en particular. Obtienes la optimización en el peor de los casos; Minimice el arrepentimiento máximo en todas las geometrías de problemas posibles. Entonces, ¿cuál es la diferencia? Todo se reduce al tiempo de adaptación. CMA-ES puede adaptarse durante la optimización; Comienza isotrópico pero luego se vuelve anisotrópico a medida que aprende el panorama de optimización específico. Por el contrario, LeJEPA tiene que permanecer isotrópico porque se está preparando para tareas posteriores desconocidas que aún no se han visto. ...