DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Accelerera diffusions-LLM:er via adaptiv parallell avkodning Bra papper om att snabba upp LLM (dLLM) med 22x. Med KV-cache kan hastigheterna pressas ytterligare till 57x. dLLM:er slösar ofta tid: de utför onödig remaskering och utfyllnadstung avkodning under semi-autoregressiv denoising. Learn2PD lägger till två enkla knep för att minska det slöseriet. Smartare "klar"-identifiering per token: En liten filtermodell lär sig att avgöra om en token redan är korrekt. När den har markerats som "klar" rörs den aldrig igen. På så sätt undviker man den ständiga rematingslingan och påskyndar avkodningen mycket. Stoppa när svaret slutar: Om token End-of-Text visas stoppas avkodningen omedelbart. Detta tar bort enorma mängder utfyllnad, särskilt för långa utdata. De uppnår stora hastighetsökningar med nästan ingen kvalitetsförlust. På GSM8K (matematiska problem) förbättrades hastigheten 22× vid 1024 tokens med noggrannheten i princip oförändrad. För längre utdata blir hastigheterna ännu större. Fungerar med KV-cache: Kombinera med cachningsknep och du kan pressa upp hastigheterna till 57 ×, fortfarande med solid noggrannhet. Lätt och lätt att lägga till: Filtret är bara en liten MLP med ~2K parametrar. Du tränar inte om basmodellen, utan tränar bara filtret post-hoc och släpper det i avkodningsloopen.

Topp

Rankning

Favoriter