Beschleunigung von Diffusions-LLMs durch adaptive parallele Dekodierung Tolles Papier über die Beschleunigung von Diffusions-LLMs (dLLMs) um das 22-fache. Mit KV-Cache können die Geschwindigkeitssteigerungen auf das 57-fache erhöht werden. dLLMs verschwenden oft Zeit: Sie führen unnötiges Remasking und padding-intensive Dekodierung während der semi-autoregressiven Denoising durch. Learn2PD fügt zwei einfache Tricks hinzu, um diese Verschwendung zu reduzieren. Intelligentere "done"-Erkennung pro Token: Ein kleines Filtermodell lernt zu erkennen, ob ein Token bereits korrekt ist. Sobald es als "done" markiert ist, wird es nie wieder berührt. Dies vermeidet die ständige Remasking-Schleife und beschleunigt die Dekodierung erheblich. Stoppen, wenn die Antwort endet: Wenn das End-of-Text-Token erscheint, stoppt die Dekodierung sofort. Dies beseitigt große Mengen an Padding-Overhead, insbesondere bei langen Ausgaben. Sie erzielen große Geschwindigkeitssteigerungen mit fast keinem Qualitätsverlust. Bei GSM8K (Mathematikprobleme) verbesserte sich die Geschwindigkeit um das 22-fache bei 1024 Tokens, während die Genauigkeit praktisch unverändert blieb. Bei längeren Ausgaben werden die Geschwindigkeitssteigerungen noch größer. Funktioniert mit KV-Cache: Kombinieren Sie es mit Caching-Tricks, und Sie können die Geschwindigkeitssteigerungen auf das 57-fache erhöhen, immer noch mit solider Genauigkeit. Leichtgewichtig und einfach hinzuzufügen: Der Filter ist nur ein kleines MLP mit ~2K Parametern. Sie trainieren das Basismodell nicht neu, sondern trainieren nur den Filter nachträglich und fügen ihn in die Dekodierungsschleife ein.