Accelerarea LLM-urilor de difuzie prin decodare paralelă adaptivă O lucrare excelentă despre accelerarea LLM-urilor în stil difuzie (dLLM) de 22x. Cu cache-ul KV, accelerările pot fi împinse și mai mult la 57x. dLLM-urile pierd adesea timpul: efectuează remascarea inutilă și decodarea grea de umplutură în timpul dezgomotului semi-autoregresiv. Learn2PD adaugă două trucuri simple pentru a reduce această risipă. Detectare mai inteligentă "făcută" per token: Un model mic de filtrare învață să spună dacă un token este deja corect. Odată ce este marcat "gata", nu mai este atins niciodată. Acest lucru evită bucla constantă de remascare și accelerează foarte mult decodarea. Opriți când se termină răspunsul: Dacă apare simbolul de sfârșit de text, decodarea se oprește imediat. Acest lucru ucide cantități uriașe de căptușeală deasupra capului, în special pentru ieșiri lungi. Acestea obțin creșteri mari de viteză aproape fără pierderi de calitate. Pe GSM8K (probleme de matematică), viteza s-a îmbunătățit cu 22× la 1024 de jetoane, cu o precizie practic neschimbată. Pentru ieșiri mai lungi, accelerările devin și mai mari. Funcționează cu cache KV: Combinați cu trucuri de cache și puteți împinge accelerările la 57×, totuși cu o precizie solidă. Ușor și ușor de adăugat: Filtrul este doar un MLP mic cu parametri ~2K. Nu reantrenați modelul de bază, doar antrenați filtrul post-hoc și plasați-l în bucla de decodare.