O artigo mais importante de 2025 não é sobre melhorias incrementais na arquitetura do Transformer. Trata-se de substituir seu paradigma sequencial e autorregressivo por um paralelo e bidirecional. O artigo do LLaDA 2.0 reformula completamente como penso sobre modelos de difusão. Até agora, LLMs de difusão pareciam uma ideia interessante, mas longe de algo que você pudesse rodar em escala 100B. Este artigo muda isso. A ideia deles é muito simples: Pegue um modelo autorregressivo forte e converta-o em um modelo de difusão, em vez de treinar um do zero. Os autores descobriram como fazer isso sem destruir o conhecimento do modelo original. Eles chamam de "O calendário Aquecimento-Estábulo-Decay." O motivo de isso ser enorme: Um modelo de difusão traz muitos benefícios: decodificação paralela, forte desempenho de raciocínio, velocidade, etc. Estou linkando para o artigo abaixo. Continue lendo para ver como podemos construir a próxima geração de modelos.