Por qué dpskv3.2 es emocionante tanto para las comunidades de atención dispersa como para las comunidades de atención lineal de @SonglinYang4 (Alerta: esto está en chino) El resumen básico es: 1. Después de todo, aunque SWA y Linear Attn son populares, todavía es difícil deshacerse de la capa ATTN completa para ciertas tareas. Así que la gente elige híbrido (por ejemplo, como qwen-next) 2. Sin embargo, incluso las capas de atención completa limitadas pueden ser costosas para CTX muy largas, por lo que la atención escasa sigue siendo interesante de reemplazar para las capas de atención completa restantes. 3. Mientras que el propósito de Linear es calentar el SWA con casi eficiencia pero mejores numéricos 4. Personalmente, me gusta mucho MoBA y DSA, ya que se puede continuar entrenando y conserva las grandes habilidades de atención aprendidas durante las etapas de entrenamiento de atención completa. Un poco de promoción aquí: el trabajo de moonshot, MoBA (aceptado en NIPs 25, también es un servicio simple y eficiente escaso, que apoya totalmente la capacitación continua y no paramétrico