Akselerere diffusjons-LLM-er via adaptiv parallell dekoding Flott papir om å øke hastigheten på diffusjonsstil LLM-er (dLLM-er) med 22x. Med KV-cache kan hastigheter skyves ytterligere til 57x. dLLM-er kaster ofte bort tid: de utfører unødvendig omforming og polstringstung dekoding under semi-autoregressiv denoising. Learn2PD legger til to enkle triks for å redusere avfallet. Smartere "ferdig" deteksjon per token: En liten filtermodell lærer å fortelle om et token allerede er riktig. Når den er merket "ferdig", blir den aldri rørt igjen. Dette unngår den konstante represseringssløyfen og fremskynder dekodingen mye. Stopp når svaret slutter: Hvis End-of-Text-tokenet vises, stopper dekodingen umiddelbart. Dette dreper enorme mengder polstring over hodet, spesielt for lange utganger. De oppnår store hastighetsøkninger nesten uten kvalitetstap. På GSM8K (matematiske problemer) forbedret hastigheten 22× ved 1024 tokens med nøyaktighet i utgangspunktet uendret. For lengre utganger blir hastighetene enda større. Fungerer med KV-cache: Kombiner med caching-triks, og du kan presse hastighetene til 57×, fortsatt med solid nøyaktighet. Lett og enkelt å legge til: Filteret er bare en liten MLP med ~2K-parametere. Du trener ikke basismodellen på nytt, bare trener filteret post-hoc og slipper det inn i dekodingssløyfen.