Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Urychlení difúzních LLM pomocí adaptivního paralelního dekódování
Skvělý článek o 22x zrychlení difúzních LLM (dLLM). S KV cache lze zrychlení dále posunout až na 57x.
dLLM často ztrácejí čas: provádějí zbytečné remasking a dekódování náročné na paddingu během semi-autoregresního odšumování. Learn2PD přidává dva jednoduché triky, jak toto plýtvání snížit.
Chytřejší detekce "hotovo" na token: Malý model filtru se naučí zjistit, zda je token již správný. Jakmile je označen jako "hotovo", už se ho nikdy nedotknete. Tím se zabrání neustálé smyčce remaskování a hodně urychlí dekódování.
Zastavit po ukončení odpovědi: Pokud se zobrazí token End-of-Text, dekódování se okamžitě zastaví. To zabíjí obrovské množství odsazení nad hlavou, zejména u dlouhých výstupů.
Dosahují velkého zvýšení rychlosti téměř bez ztráty kvality. Na GSM8K (matematické úlohy) se rychlost zlepšila o 22 × na 1024 tokenů s přesností v podstatě nezměněnou. U delších výstupů se zrychlení ještě zvětšuje.
Pracuje s KV cache: V kombinaci s triky s cachováním můžete zvýšit zrychlení na 57×, stále se solidní přesností.
Lehký a snadno přidatelný: Filtr je jen malý MLP s parametry ~2K. Základní model nepřetrénujete, pouze natrénujete filtr post-hoc a vložíte jej do dekódovací smyčky.

Top
Hodnocení
Oblíbené