Nejdůležitější článek roku 2025 se netýká postupných vylepšení architektury Transformeru. Jde o nahrazení jeho sekvenčního, autoregresního paradigmatu paralelním, obousměrným. Článek o LLaDA 2.0 zcela mění můj pohled na difuzní modely. Až dosud se difúzní LLM zdály zajímavé nápady, ale rozhodně ne něco, co by šlo spustit v měřítku 100B. Tento článek to mění. Jejich myšlenka je velmi jednoduchá: Vezměte silný autoregresivní model a převeďte ho na difuzní model, místo abyste ho trénovali od začátku. Autoři přišli na to, jak to udělat, aniž by zničili znalosti původního modelu. Říkají tomu "Rozvrh zahřátí-stabilní-rozpadu". Důvod, proč je to zásadní: Difúzní model má mnoho výhod: paralelní dekódování, silné uvažování, rychlost atd. Odkazuji na článek níže. Čtěte dál a zjistěte, jak můžeme postavit další generaci modelů.