Den viktigste artikkelen i 2025 handler ikke om inkrementelle forbedringer av Transformer-arkitekturen. Det handler om å erstatte det sekvensielle, autoregressive paradigmet med et parallelt, toveis paradigme. LLaDA 2.0-artikkelen endrer fullstendig hvordan jeg tenker på diffusjonsmodeller. Inntil nå har diffusjons-LLM-er føltes som en interessant idé, men langt fra noe du kunne kjøre i 100B-skala. Denne artikkelen endrer på det. Deres idé er veldig enkel: Ta en sterk autoregressiv modell og konverter den til en diffusjonsmodell, i stedet for å trene en fra bunnen av. Forfatterne fant ut hvordan dette kunne gjøres uten å ødelegge kunnskapen fra den opprinnelige modellen. De kaller det «Oppvarmings-Stall-Nedfall-planen». Grunnen til at dette er så stort: En diffusjonsmodell har mange fordeler: parallell dekoding, sterk resonnementsytelse, hastighet osv. Jeg lenker til artikkelen nedenfor. Les videre for å se hvordan vi kan bygge neste generasjon modeller.