Hvorfor dpskv3.2 er spennende for både sparsomme attn- og lineære attn-samfunn fra @SonglinYang4 (Varsel: dette er på kinesisk) Den grunnleggende oppsummeringen er: 1. Tross alt, selv om SWA og Linear Attn er populære, er det fortsatt vanskelig å bli kvitt hele Attn-laget for visse oppgaver. Så folk velger hybrid (f.eks. som Qwen-Next) 2. Selv begrensede Full Attn-lag kan imidlertid fortsatt være dyre for veldig lange CTX, så sparsomme ATTN er fortsatt interessant å erstatte for de gjenværende Full Attn-lagene. 3. Mens formålet med lineær er å varme opp SWA med nesten effektivitet, men bedre numerikk 4. Jeg personlig liker MoBA og DSA veldig godt, siden det kan fortsettes og bevarer de store attn-evnene som ble lært under de fulle attn-treningsstadiene! Litt promo her: moonshots arbeid, MoBA (akseptert på NIPs 25, det er også en enkel og effektiv sparsom attn, som fullt ut støtter kontinuerlig trening og ikke-parametrisk