Чому dpskv3.2 цікавий як для розріджених, так і для лінійних attn спільнот від @SonglinYang4 (Увага: це китайською) Основне резюме: 1. Адже, незважаючи на те, що SWA і Linear ATTN популярні, все одно важко позбутися повного шару ATTN для певних завдань. Тому люди вибирають гібрид (наприклад, як QWEN-Next) 2. Однак, навіть обмежені повні шари ATTN все ще можуть бути дорогими для дуже довгого CTX, тому розріджений ATTN все ще цікаво замінити для решти повних шарів ATTN. 3. У той час як метою лінійного є нагрівання SWA з майже ефективною, але кращою чисельністю 4. Мені особисто дуже подобаються MoBA та DSA, тому що їх можна продовжувати тренувати та зберігати чудові здібності, отримані під час повних етапів навчання attn! Трохи промо тут: робота moonshot, MoBA ( прийнято на NIPs 25, це також простий і ефективний розріджений аттн, повністю підтримує безперервне навчання, і непараметричний