Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Het belangrijkste paper van 2025 gaat niet over incrementele verbeteringen van de Transformer-architectuur.
Het gaat over het vervangen van het sequentiële, autoregressieve paradigma door een parallel, bidirectioneel paradigma.
Het LLaDA 2.0-paper herformuleert volledig hoe ik denk over diffusie-modellen.
Tot nu toe voelden diffusie LLM's als een interessant idee, maar nergens in de buurt van iets dat je op 100B-schaal zou kunnen draaien.
Dit paper verandert dat.
Hun idee is heel eenvoudig:
Neem een sterk autoregressief model en zet het om in een diffusie-model, in plaats van er een vanaf nul te trainen.
De auteurs hebben ontdekt hoe ze dit kunnen doen zonder de kennis van het oorspronkelijke model te vernietigen. Ze noemen het "De Warmup-Stable-Decay schema."
De reden dat dit enorm is:
Een diffusie-model heeft veel voordelen: parallel decoderen, sterke redeneervaardigheden, snelheid, enz.
Ik link naar het paper hieronder.
Lees verder om te zien hoe we de volgende generatie modellen kunnen bouwen.

Boven
Positie
Favorieten
