Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den viktigste artikkelen i 2025 handler ikke om inkrementelle forbedringer av Transformer-arkitekturen.
Det handler om å erstatte det sekvensielle, autoregressive paradigmet med et parallelt, toveis paradigme.
LLaDA 2.0-artikkelen endrer fullstendig hvordan jeg tenker på diffusjonsmodeller.
Inntil nå har diffusjons-LLM-er føltes som en interessant idé, men langt fra noe du kunne kjøre i 100B-skala.
Denne artikkelen endrer på det.
Deres idé er veldig enkel:
Ta en sterk autoregressiv modell og konverter den til en diffusjonsmodell, i stedet for å trene en fra bunnen av.
Forfatterne fant ut hvordan dette kunne gjøres uten å ødelegge kunnskapen fra den opprinnelige modellen. De kaller det «Oppvarmings-Stall-Nedfall-planen».
Grunnen til at dette er så stort:
En diffusjonsmodell har mange fordeler: parallell dekoding, sterk resonnementsytelse, hastighet osv.
Jeg lenker til artikkelen nedenfor.
Les videre for å se hvordan vi kan bygge neste generasjon modeller.

Topp
Rangering
Favoritter
