Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Akselerere diffusjons-LLM-er via adaptiv parallell dekoding
Flott papir om å øke hastigheten på diffusjonsstil LLM-er (dLLM-er) med 22x. Med KV-cache kan hastigheter skyves ytterligere til 57x.
dLLM-er kaster ofte bort tid: de utfører unødvendig omforming og polstringstung dekoding under semi-autoregressiv denoising. Learn2PD legger til to enkle triks for å redusere avfallet.
Smartere "ferdig" deteksjon per token: En liten filtermodell lærer å fortelle om et token allerede er riktig. Når den er merket "ferdig", blir den aldri rørt igjen. Dette unngår den konstante represseringssløyfen og fremskynder dekodingen mye.
Stopp når svaret slutter: Hvis End-of-Text-tokenet vises, stopper dekodingen umiddelbart. Dette dreper enorme mengder polstring over hodet, spesielt for lange utganger.
De oppnår store hastighetsøkninger nesten uten kvalitetstap. På GSM8K (matematiske problemer) forbedret hastigheten 22× ved 1024 tokens med nøyaktighet i utgangspunktet uendret. For lengre utganger blir hastighetene enda større.
Fungerer med KV-cache: Kombiner med caching-triks, og du kan presse hastighetene til 57×, fortsatt med solid nøyaktighet.
Lett og enkelt å legge til: Filteret er bare en liten MLP med ~2K-parametere. Du trener ikke basismodellen på nytt, bare trener filteret post-hoc og slipper det inn i dekodingssløyfen.

Topp
Rangering
Favoritter