Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O papel mais importante de 2025 não é sobre melhorias incrementais na arquitetura Transformer.
É sobre substituir seu paradigma sequencial e autorregressivo por um paralelo e bidirecional.
O artigo LLaDA 2.0 reformula completamente a forma como penso sobre modelos de difusão.
Até agora, os LLMs de difusão pareciam uma ideia interessante, mas longe de algo que você pudesse executar em escala de 100B.
Este artigo muda isso.
A ideia deles é muito simples:
Pegue um modelo autorregressivo forte e converta-o em um modelo de difusão, em vez de treinar um do zero.
Os autores descobriram como fazer isso sem destruir o conhecimento do modelo original. Eles chamam isso de "O cronograma Warmup-Stable-Decay."
A razão pela qual isso é enorme:
Um modelo de difusão tem muitos benefícios: decodificação paralela, forte desempenho em raciocínio, velocidade, etc.
Estou linkando para o artigo abaixo.
Continue lendo para ver como podemos construir a próxima geração de modelos.

Top
Classificação
Favoritos
