#PaperADay 3 (esperando que os links incorporados diminuam o alcance o suficiente para que não muitas pessoas fiquem incomodadas com este conteúdo) @ylecun tem sido um tópico recente, então hoje eu passei por: Aprendizagem Auto-Supervisionada a partir de Imagens com uma Arquitetura Preditiva de Embedding Conjunto Estou amplamente de acordo com a ideia de que as previsões importantes são de representações internas, não de pixels, então modelos generativos podem ser um tanto contraproducentes, ou pelo menos desnecessariamente ineficientes para muitas tarefas. No entanto, eu tendendo a pensar que a previsão interna tem que acontecer em um nível mais granular do que o processamento de imagem completo, no nível de minicolunas ou até mesmo neural, e com mais de um componente temporal do que mascaramento local. O treinamento auto-supervisionado funciona em um grande conjunto de dados sem ideia do que será pedido ao modelo mais tarde, apenas construindo conhecimento a partir dos dados. Depois, você pode treinar um classificador linear simples (sonda linear) na saída e obter um desempenho bastante bom. As melhores sondas lineares em modelos auto-supervisionados congelados não são tão fortes quanto classificadores treinados de ponta a ponta, mas o mesmo SSM pode ser forte para muitas tarefas diferentes ao mesmo tempo. O artigo observa que, em contraste com o JEPA, métodos de treinamento baseados em Invariância que pegam a mesma imagem e a aumentam de duas maneiras diferentes enquanto mantêm a similaridade representacional obtêm seu desempenho à custa de um conjunto de aumentações de imagem enviesado pelo pesquisador, o que não se transfere para outras modalidades como áudio ou texto. Eu noto que o JEPA é muito sensível ao mascaramento exato realizado (tabela 6), o que não parece muito diferente. O codificador alvo é superficialmente semelhante à formulação moderna do modelo alvo em redes DQN RL com uma EMA dos pesos em vez de uma cópia ocasional, mas enquanto era um auxílio de estabilidade para RL (e não é sempre necessário), tem um propósito mais fundamental aqui para evitar que o modelo colapse representações em previsões triviais. Isso, junto com o LayerNorm também sendo um elemento crucial disso, não está explicitado no artigo, e eu tive que encontrar referências a isso em outro lugar. É meio peculiar que eles apliquem um corte aleatório de 0.85-1.0 ao contexto, mas apenas removam blocos da direita e de baixo. Eu esperava ver uma ablação desse corte. Aumentar a resolução da imagem é uma maneira um pouco estranha de escalar o modelo. Provavelmente não é realmente a resolução que ajuda, mas o total de contagem de patches. Há um grande corpo de trabalho sobre auto-supervisão que eu conheço apenas vagamente, então provavelmente estou perdendo alguns aspectos-chave que distinguem o JEPA. Eu ainda estou lutando com a questão central de exatamente o que os contextos aprendem, e como a arquitetura do modelo e o treinamento o guiam para longe do colapso.