Versnelling van Diffusie LLM's via Adaptieve Parallel Decoding Geweldig artikel over het versnellen van diffusie-stijl LLM's (dLLM's) met 22x. Met KV-cache kunnen de versnellingen verder worden verhoogd tot 57x. dLLM's verspillen vaak tijd: ze voeren onnodige remasking en padding-zware decoding uit tijdens semi-autoregressieve denoising. Learn2PD voegt twee eenvoudige trucs toe om die verspilling te verminderen. Slimmere "klaar" detectie per token: Een klein filtermodel leert te bepalen of een token al correct is. Zodra het als "klaar" is gemarkeerd, wordt het nooit meer aangeraakt. Dit voorkomt de constante remasking-lus en versnelt de decoding aanzienlijk. Stop wanneer het antwoord eindigt: Als het End-of-Text-token verschijnt, stopt de decoding onmiddellijk. Dit elimineert enorme hoeveelheden padding overhead, vooral voor lange outputs. Ze behalen grote snelheidsverhogingen met bijna geen kwaliteitsverlies. Op GSM8K (wiskundeproblemen) verbeterde de snelheid met 22× bij 1024 tokens met een nauwkeurigheid die in wezen onveranderd bleef. Voor langere outputs worden de versnellingen nog groter. Werkt met KV-cache: Combineer met caching-trucs, en je kunt de versnellingen tot 57× verhogen, nog steeds met solide nauwkeurigheid. Lichtgewicht en eenvoudig toe te voegen: Het filter is gewoon een klein MLP met ~2K parameters. Je traint het basismodel niet opnieuw, je traint gewoon het filter achteraf en voegt het toe aan de decoding-lus.