为什么dpskv3.2对稀疏注意力和线性注意力社区都很令人兴奋 @SonglinYang4(警告:这是中文) 基本总结是: 1. 毕竟,尽管swa和线性注意力很受欢迎,但在某些任务中仍然很难摆脱全注意力层。因此人们选择混合(例如像qwen-next) 2. 然而,即使有限的全注意力层对于非常长的上下文仍然可能很昂贵,因此稀疏注意力仍然很有趣,可以替代剩余的全注意力层。 3. 而线性注意力的目的是以接近的效率加热swa,但数值更好。 4. 我个人非常喜欢MoBA和DSA,因为它可以继续训练,并保留在全注意力训练阶段学习到的优秀注意力能力! 这里稍微宣传一下:moonshot的工作,MoBA(已被NIPs 25接受,它也是一种简单高效的稀疏注意力,完全支持持续训练,并且是非参数的。