Varför dpskv3.2 är spännande för både glesa attn- och linjära attn-gemenskaper från @SonglinYang4 (Varning: detta är på kinesiska) Den grundläggande sammanfattningen är: 1. När allt kommer omkring, även om SWA och linjär ATTN är populära, är det fortfarande svårt att bli av med hela attn-lagret för vissa uppgifter. Så folk väljer hybrid (t.ex. som qwen-next) 2. Även begränsade fullständiga attn-lager kan dock fortfarande vara dyra för mycket långa CTX, så gles attn är fortfarande intressant att ersätta för de återstående fullständiga attn-lagren. 3. Medan syftet med linjär är att värma SWA med nära effektivitet men bättre siffror 4. Personligen gillar jag MoBA och DSA väldigt mycket, eftersom det kan fortsätta tränas och bevarar de stora attn-förmågorna som jag lärt mig under hela attn-utbildningsstadiet! Lite promo här: moonshots arbete, MoBA (accepterad vid NIPs 25, det är också en enkel och effektiv gles attn, fullt ut stöd för kontinuerlig utbildning och icke-parametrisk