Perché dpskv3.2 è entusiasmante per le comunità di attn sparsa e attn lineare da @SonglinYang4 (Avviso: questo è in cinese) il riassunto di base è: 1. dopo tutto, anche se swa e attn lineare sono popolari, è ancora difficile liberarsi del layer di attn completo per alcuni compiti. quindi le persone scelgono ibrido (ad esempio come qwen-next) 2. tuttavia, anche i layer di attn completo limitati possono essere costosi per contesti molto lunghi, quindi l'attn sparsa è ancora interessante da sostituire per i rimanenti layer di attn completo. 3. mentre lo scopo per l'attn lineare è riscaldare lo swa con quasi efficienza ma migliori numeri 4. Personalmente mi piacciono molto MoBA e DSA, poiché possono essere addestrati continuamente e preservano le grandi capacità di attn apprese durante le fasi di addestramento dell'attn completo! Un po' di promozione qui: il lavoro di moonshot, MoBA (accettato a NIPs 25, è anche un'attn sparsa semplice ed efficiente, che supporta completamente l'addestramento continuo e non parametrico.