Il documento più importante del 2025 non riguarda miglioramenti incrementali all'architettura Transformer. Riguarda la sostituzione del suo paradigma sequenziale e autoregressivo con uno parallelo e bidirezionale. Il documento LLaDA 2.0 riformula completamente il modo in cui penso ai modelli di diffusione. Fino ad ora, i LLM di diffusione sembravano un'idea interessante, ma lontana da qualcosa che potresti eseguire su scala 100B. Questo documento cambia tutto. La loro idea è molto semplice: Prendere un forte modello autoregressivo e convertirlo in un modello di diffusione, piuttosto che addestrarne uno da zero. Gli autori hanno scoperto come farlo senza distruggere la conoscenza del modello originale. Lo chiamano "Il programma Warmup-Stable-Decay." Il motivo per cui questo è enorme: Un modello di diffusione ha molti vantaggi: decodifica parallela, forte prestazione di ragionamento, velocità, ecc. Sto linkando il documento qui sotto. Continua a leggere per vedere come potremmo costruire la prossima generazione di modelli.