Почему dpskv3.2 вызывает интерес как у сообщества разреженного внимания, так и у сообщества линейного внимания от @SonglinYang4 (Внимание: это на китайском) Основное резюме: 1. В конце концов, хотя swa и линейное внимание популярны, все же трудно избавиться от слоя полного внимания для определенных задач. Поэтому люди выбирают гибридные решения (например, как qwen-next) 2. Однако даже ограниченные слои полного внимания могут быть дорогими для очень длинных контекстов, поэтому разреженное внимание все еще интересно для замены оставшихся слоев полного внимания. 3. В то время как цель линейного внимания — нагреть swa с почти такой же эффективностью, но с лучшими числовыми показателями. 4. Лично мне очень нравятся MoBA и DSA, так как их можно продолжать обучать и они сохраняют отличные способности внимания, приобретенные во время этапов обучения с полным вниманием! Немного рекламы: работа moonshot, MoBA (принята на NIPs 25, это также простое и эффективное разреженное внимание, полностью поддерживающее непрерывное обучение и непараметрическое.