Urychlení difúzních LLM pomocí adaptivního paralelního dekódování Skvělý článek o 22x zrychlení difúzních LLM (dLLM). S KV cache lze zrychlení dále posunout až na 57x. dLLM často ztrácejí čas: provádějí zbytečné remasking a dekódování náročné na paddingu během semi-autoregresního odšumování. Learn2PD přidává dva jednoduché triky, jak toto plýtvání snížit. Chytřejší detekce "hotovo" na token: Malý model filtru se naučí zjistit, zda je token již správný. Jakmile je označen jako "hotovo", už se ho nikdy nedotknete. Tím se zabrání neustálé smyčce remaskování a hodně urychlí dekódování. Zastavit po ukončení odpovědi: Pokud se zobrazí token End-of-Text, dekódování se okamžitě zastaví. To zabíjí obrovské množství odsazení nad hlavou, zejména u dlouhých výstupů. Dosahují velkého zvýšení rychlosti téměř bez ztráty kvality. Na GSM8K (matematické úlohy) se rychlost zlepšila o 22 × na 1024 tokenů s přesností v podstatě nezměněnou. U delších výstupů se zrychlení ještě zvětšuje. Pracuje s KV cache: V kombinaci s triky s cachováním můžete zvýšit zrychlení na 57×, stále se solidní přesností. Lehký a snadno přidatelný: Filtr je jen malý MLP s parametry ~2K. Základní model nepřetrénujete, pouze natrénujete filtr post-hoc a vložíte jej do dekódovací smyčky.