Acabei de ler o novo artigo LeJEPA de Yann LeCun e Randall Balestriero. Estava curioso para saber no que Yann tem trabalhado ultimamente, especialmente considerando todas as suas críticas aos LLMs (com as quais não concordo, pois acho que os LLMs continuarão a melhorar e nos levarão a ASI em breve). De qualquer forma, já existem vários tópicos no X sobre o artigo e o que ele introduz. A versão curta é que é uma abordagem fundamentada, teoricamente justificada e parcimoniosa para o aprendizado auto-supervisionado que substitui um emaranhado complexo de heurísticas ad-hoc e improvisadas para prevenir o colapso de modo, que é a maldição do aprendizado auto-supervisionado. É aí que o modelo falha e começa a mapear todas as entradas para embeddings quase idênticos ou para um subespaço estreito de embeddings, reduzindo toda a riqueza do problema a uma correspondência patológica simples e errada. O primeiro pilar da nova abordagem é a prova de que distribuições gaussianas isotrópicas minimizam de forma única o risco de previsão de pior caso a montante. Assim que li isso, imediatamente pensei no CMA-ES, o melhor algoritmo de otimização de caixa-preta disponível para quando você não tem acesso ao gradiente da função que está tentando minimizar, mas só pode fazer avaliações de função (caras/lentas). Nikolaus Hansen tem trabalhado no CMA-ES desde que o introduziu lá em 1996. Sempre fui fascinado por essa abordagem e a usei com muito sucesso para explorar eficientemente hiperparâmetros de redes neurais profundas em 2011, em vez de fazer buscas em grade ineficientes. De qualquer forma, a razão pela qual menciono isso é porque há um paralelo impressionante e uma conexão profunda entre essa abordagem e o núcleo do LeJEPA. O CMA-ES diz: Comece com uma gaussiana isotrópica porque é a distribuição de máxima entropia (menos tendenciosa) dada apenas as restrições de variância. Então, adapte a covariância para aprender a geometria do problema. O LeJEPA diz: Mantenha uma gaussiana isotrópica porque é a distribuição de máxima entropia (menos tendenciosa) para tarefas futuras desconhecidas. Ambos reconhecem que a isotropia é ótima sob incerteza por três razões: O princípio da máxima entropia; Entre todas as distribuições com variância fixa, a gaussiana isotrópica tem máxima entropia; Ou seja, faz as menores suposições. Não há viés direcional; Variância igual em todas as direções significa que você não está se comprometendo previamente com nenhuma estrutura de problema particular. Você obtém otimalidade de pior caso; Minimize o arrependimento máximo em todas as possíveis geometrias de problema. Então, qual é a diferença? Isso se resume ao tempo de adaptação. O CMA-ES pode se adaptar durante a otimização; começa isotrópico, mas depois se torna anisotrópico à medida que aprende a paisagem de otimização específica. Em contraste, o LeJEPA tem que permanecer isotrópico porque está se preparando para tarefas a montante desconhecidas que ainda não foram vistas. ...