O papel mais importante de 2025 não é sobre melhorias incrementais na arquitetura Transformer. É sobre substituir seu paradigma sequencial e autorregressivo por um paralelo e bidirecional. O artigo LLaDA 2.0 reformula completamente a forma como penso sobre modelos de difusão. Até agora, os LLMs de difusão pareciam uma ideia interessante, mas longe de algo que você pudesse executar em escala de 100B. Este artigo muda isso. A ideia deles é muito simples: Pegue um modelo autorregressivo forte e converta-o em um modelo de difusão, em vez de treinar um do zero. Os autores descobriram como fazer isso sem destruir o conhecimento do modelo original. Eles chamam isso de "O cronograma Warmup-Stable-Decay." A razão pela qual isso é enorme: Um modelo de difusão tem muitos benefícios: decodificação paralela, forte desempenho em raciocínio, velocidade, etc. Estou linkando para o artigo abaixo. Continue lendo para ver como podemos construir a próxima geração de modelos.