Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vuoden 2025 tärkein artikkeli ei käsittele Transformer-arkkitehtuurin asteittaisia parannuksia.
Kyse on sen peräkkäisen, autoregressiivisen paradigman korvaamisesta rinnakkaisella, kaksisuuntaisella paradigmalla.
LLaDA 2.0 -artikkeli muuttaa täysin käsitykseni diffuusiomalleista.
Tähän asti diffuusio-LLM:t ovat tuntuneet mielenkiintoiselta idealta, mutta eivät lähelläkään sellaisia, joita voisi ajaa 100B mittakaavassa.
Tämä artikkeli muuttaa tämän.
Heidän ideansa on hyvin yksinkertainen:
Ota vahva autoregressiivinen malli ja muunna se diffuusiomalliksi sen sijaan, että kouluttaisit sen alusta alkaen.
Kirjoittajat keksivät, miten tämä onnistuu tuhoamatta alkuperäisen mallin tietoa. He kutsuvat sitä nimellä "Lämmittely-vakaa-hajoamisaikataulu".
Syy siihen, miksi tämä on valtava:
Diffuusiomallilla on monia etuja: rinnakkainen dekoodaus, vahva päättelykyky, nopeus jne.
Linkitän alla olevaan artikkeliin.
Lue eteenpäin nähdäksesi, miten voisimme rakentaa seuraavan sukupolven malleja.

Johtavat
Rankkaus
Suosikit
