Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Почему dpskv3.2 вызывает интерес как у сообщества разреженного внимания, так и у сообщества линейного внимания от @SonglinYang4 (Внимание: это на китайском)
Основное резюме:
1. В конце концов, хотя swa и линейное внимание популярны, все же трудно избавиться от слоя полного внимания для определенных задач. Поэтому люди выбирают гибридные решения (например, как qwen-next)
2. Однако даже ограниченные слои полного внимания могут быть дорогими для очень длинных контекстов, поэтому разреженное внимание все еще интересно для замены оставшихся слоев полного внимания.
3. В то время как цель линейного внимания — нагреть swa с почти такой же эффективностью, но с лучшими числовыми показателями.
4. Лично мне очень нравятся MoBA и DSA, так как их можно продолжать обучать и они сохраняют отличные способности внимания, приобретенные во время этапов обучения с полным вниманием!
Немного рекламы: работа moonshot, MoBA (принята на NIPs 25, это также простое и эффективное разреженное внимание, полностью поддерживающее непрерывное обучение и непараметрическое.
Топ
Рейтинг
Избранное