Vuoden 2025 tärkein artikkeli ei käsittele Transformer-arkkitehtuurin asteittaisia parannuksia. Kyse on sen peräkkäisen, autoregressiivisen paradigman korvaamisesta rinnakkaisella, kaksisuuntaisella paradigmalla. LLaDA 2.0 -artikkeli muuttaa täysin käsitykseni diffuusiomalleista. Tähän asti diffuusio-LLM:t ovat tuntuneet mielenkiintoiselta idealta, mutta eivät lähelläkään sellaisia, joita voisi ajaa 100B mittakaavassa. Tämä artikkeli muuttaa tämän. Heidän ideansa on hyvin yksinkertainen: Ota vahva autoregressiivinen malli ja muunna se diffuusiomalliksi sen sijaan, että kouluttaisit sen alusta alkaen. Kirjoittajat keksivät, miten tämä onnistuu tuhoamatta alkuperäisen mallin tietoa. He kutsuvat sitä nimellä "Lämmittely-vakaa-hajoamisaikataulu". Syy siihen, miksi tämä on valtava: Diffuusiomallilla on monia etuja: rinnakkainen dekoodaus, vahva päättelykyky, nopeus jne. Linkitän alla olevaan artikkeliin. Lue eteenpäin nähdäksesi, miten voisimme rakentaa seuraavan sukupolven malleja.