De ce dpskv3.2 este interesant atât pentru comunitățile de atenție rară, cât și pentru cele liniare din @SonglinYang4 (Alertă: aceasta este în chineză) Rezumatul de bază este: 1. La urma urmei, deși SWA și Linear Attn sunt populare, este totuși greu să scapi de stratul complet Attn pentru anumite sarcini. Deci oamenii aleg hibridul (de exemplu, QWEN-Next) 2. Cu toate acestea, chiar și straturile limitate de atenție completă pot fi încă costisitoare pentru CTX foarte lung, așa că Sparse Attn este încă interesant de înlocuit pentru straturile de Attn complete rămase. 3. În timp ce scopul liniarului este de a încălzi SWA cu eficiență apropiată, dar cu cifre mai bune 4. Personal îmi plac foarte mult MoBA și DSA, deoarece pot fi antrenate în continuare și păstrează abilitățile grozave învățate în timpul etapelor complete de pregătire! Un pic promoțional aici: lucrarea lui moonshot, MoBA (acceptată la NIPs 25, este, de asemenea, o atenție simplă și eficientă, care susține pe deplin antrenamentul continuu și non-parametric