Basta ler o novo artigo da LeJEPA de Yann LeCun e Randall Balestriero. Tenho estado curioso para saber no que Yann tem trabalhado ultimamente, especialmente considerando todas as suas críticas aos LLMs (com as quais discordo, pois acho que os LLMs continuarão melhorando e nos levarão à ASI em breve). De qualquer forma, já existem vários tópicos no X sobre o artigo e o que ele introduz. A versão curta é que é uma abordagem baseada em princípios, teoricamente justificada e parcimoniosa para o aprendizado auto-supervisionado que substitui uma mistura complexa de heurísticas ad-hoc e hacky para evitar o colapso do modo, que é a ruína do aprendizado auto-supervisionado. É aí que o modelo estraga e começa a mapear todas as entradas para incorporações quase idênticas ou para um subespaço estreito de incorporações, colapsando toda a riqueza do problema em uma correspondência patologicamente simples e errada. O primeiro pilar da nova abordagem é a prova de que as distribuições gaussianas isotrópicas minimizam exclusivamente o risco de previsão a jusante do pior caso. Assim que li isso, pensei imediatamente no CMA-ES, o melhor algoritmo de otimização de caixa preta disponível para quando você não tem acesso ao gradiente da função que está tentando minimizar, mas só pode fazer avaliações de função (caras/lentas). Nikolaus Hansen tem trabalhado no CMA-ES desde que o introduziu em 1996. Sempre fui fascinado por essa abordagem e a usei com muito sucesso para explorar com eficiência os hiperparâmetros de redes neurais profundas em 2011, em vez de fazer pesquisas de grade ineficientes. De qualquer forma, a razão pela qual eu trago isso à tona é porque há um paralelo impressionante e uma conexão profunda entre essa abordagem e o núcleo do LeJEPA. CMA-ES diz: Comece com uma gaussiana isotrópica porque é a distribuição de entropia máxima (menos tendenciosa) dada apenas as restrições de variância. Em seguida, adapte a covariância para aprender a geometria do problema. LeJEPA diz: Mantenha uma gaussiana isotrópica porque é a distribuição de entropia máxima (menos tendenciosa) para tarefas futuras desconhecidas. Ambos reconhecem que a isotropia é ótima sob incerteza por três razões: O princípio da entropia máxima; Entre todas as distribuições com variância fixa, a gaussiana isotrópica tem entropia máxima; Ou seja, faz o menor número de suposições. Não há viés direcional; Variação igual em todas as direções significa que você não está se comprometendo previamente com nenhuma estrutura de problema específica. Você obtém a otimização do pior caso; Minimize o máximo de arrependimento em todas as geometrias de problemas possíveis. Então, qual é a diferença? Tudo se resume ao tempo de adaptação. O CMA-ES pode se adaptar durante a otimização; Ele começa isotrópico, mas depois se torna anisotrópico à medida que aprende o cenário de otimização específico. Em contraste, o LeJEPA precisa permanecer isotrópico porque está se preparando para tarefas desconhecidas a jusante que ainda não foram vistas. ...