DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Het belangrijkste paper van 2025 gaat niet over incrementele verbeteringen van de Transformer-architectuur. Het gaat over het vervangen van het sequentiële, autoregressieve paradigma door een parallel, bidirectioneel paradigma. Het LLaDA 2.0-paper herformuleert volledig hoe ik denk over diffusie-modellen. Tot nu toe voelden diffusie LLM's als een interessant idee, maar nergens in de buurt van iets dat je op 100B-schaal zou kunnen draaien. Dit paper verandert dat. Hun idee is heel eenvoudig: Neem een sterk autoregressief model en zet het om in een diffusie-model, in plaats van er een vanaf nul te trainen. De auteurs hebben ontdekt hoe ze dit kunnen doen zonder de kennis van het oorspronkelijke model te vernietigen. Ze noemen het "De Warmup-Stable-Decay schema." De reden dat dit enorm is: Een diffusie-model heeft veel voordelen: parallel decoderen, sterke redeneervaardigheden, snelheid, enz. Ik link naar het paper hieronder. Lees verder om te zien hoe we de volgende generatie modellen kunnen bouwen.

Boven

Positie

Favorieten