Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Beschleunigung von Diffusions-LLMs durch adaptive parallele Dekodierung
Tolles Papier über die Beschleunigung von Diffusions-LLMs (dLLMs) um das 22-fache. Mit KV-Cache können die Geschwindigkeitssteigerungen auf das 57-fache erhöht werden.
dLLMs verschwenden oft Zeit: Sie führen unnötiges Remasking und padding-intensive Dekodierung während der semi-autoregressiven Denoising durch. Learn2PD fügt zwei einfache Tricks hinzu, um diese Verschwendung zu reduzieren.
Intelligentere "done"-Erkennung pro Token: Ein kleines Filtermodell lernt zu erkennen, ob ein Token bereits korrekt ist. Sobald es als "done" markiert ist, wird es nie wieder berührt. Dies vermeidet die ständige Remasking-Schleife und beschleunigt die Dekodierung erheblich.
Stoppen, wenn die Antwort endet: Wenn das End-of-Text-Token erscheint, stoppt die Dekodierung sofort. Dies beseitigt große Mengen an Padding-Overhead, insbesondere bei langen Ausgaben.
Sie erzielen große Geschwindigkeitssteigerungen mit fast keinem Qualitätsverlust. Bei GSM8K (Mathematikprobleme) verbesserte sich die Geschwindigkeit um das 22-fache bei 1024 Tokens, während die Genauigkeit praktisch unverändert blieb. Bei längeren Ausgaben werden die Geschwindigkeitssteigerungen noch größer.
Funktioniert mit KV-Cache: Kombinieren Sie es mit Caching-Tricks, und Sie können die Geschwindigkeitssteigerungen auf das 57-fache erhöhen, immer noch mit solider Genauigkeit.
Leichtgewichtig und einfach hinzuzufügen: Der Filter ist nur ein kleines MLP mit ~2K Parametern. Sie trainieren das Basismodell nicht neu, sondern trainieren nur den Filter nachträglich und fügen ihn in die Dekodierungsschleife ein.

Top
Ranking
Favoriten