Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nejdůležitější článek roku 2025 se netýká postupných vylepšení architektury Transformeru.
Jde o nahrazení jeho sekvenčního, autoregresního paradigmatu paralelním, obousměrným.
Článek o LLaDA 2.0 zcela mění můj pohled na difuzní modely.
Až dosud se difúzní LLM zdály zajímavé nápady, ale rozhodně ne něco, co by šlo spustit v měřítku 100B.
Tento článek to mění.
Jejich myšlenka je velmi jednoduchá:
Vezměte silný autoregresivní model a převeďte ho na difuzní model, místo abyste ho trénovali od začátku.
Autoři přišli na to, jak to udělat, aniž by zničili znalosti původního modelu. Říkají tomu "Rozvrh zahřátí-stabilní-rozpadu".
Důvod, proč je to zásadní:
Difúzní model má mnoho výhod: paralelní dekódování, silné uvažování, rychlost atd.
Odkazuji na článek níže.
Čtěte dál a zjistěte, jak můžeme postavit další generaci modelů.

Top
Hodnocení
Oblíbené
