為什麼 dpskv3.2 對於稀疏注意力和線性注意力社群來說都很令人興奮,來自 @SonglinYang4(警告:這是中文) 基本摘要是: 1. 雖然 swa 和線性注意力很受歡迎,但在某些任務中仍然難以擺脫全注意力層,因此人們選擇混合(例如像 qwen-next) 2. 然而,即使有限的全注意力層對於非常長的上下文來說仍然可能很昂貴,因此稀疏注意力仍然有趣,可以替代剩餘的全注意力層。 3. 而線性注意力的目的是以接近效率的方式加熱 swa,但數值更好。 4. 我個人非常喜歡 MoBA 和 DSA,因為它可以持續訓練並保留在全注意力訓練階段學到的優秀注意力能力! 這裡有一點宣傳:moonshot 的工作,MoBA(在 NIPs 25 被接受,它也是一個簡單而高效的稀疏注意力,完全支持持續訓練,並且是非參數的。