Das wichtigste Papier von 2025 handelt nicht von inkrementellen Verbesserungen der Transformer-Architektur. Es geht darum, das sequenzielle, autoregressive Paradigma durch ein paralleles, bidirektionales zu ersetzen. Das LLaDA 2.0-Papier verändert vollständig, wie ich über Diffusionsmodelle denke. Bis jetzt fühlten sich Diffusions-LLMs wie eine interessante Idee an, aber bei weitem nicht wie etwas, das man im 100B-Maßstab betreiben könnte. Dieses Papier ändert das. Ihre Idee ist sehr einfach: Nehmen Sie ein starkes autoregressives Modell und wandeln Sie es in ein Diffusionsmodell um, anstatt eines von Grund auf neu zu trainieren. Die Autoren haben herausgefunden, wie man dies tun kann, ohne das Wissen des ursprünglichen Modells zu zerstören. Sie nennen es "Der Warmup-Stable-Decay-Plan." Der Grund, warum das riesig ist: Ein Diffusionsmodell hat viele Vorteile: paralleles Decoding, starke Leistungsfähigkeit im Denken, Geschwindigkeit usw. Ich verlinke unten auf das Papier. Lesen Sie weiter, um zu sehen, wie wir die nächste Generation von Modellen aufbauen könnten.