Por que o dpskv3.2 é empolgante para as comunidades esparsas e lineares do @SonglinYang4 (Alerta: isso está em chinês) O resumo básico é: 1. Afinal, embora SWA e Linear ATTN sejam populares, ainda é difícil se livrar da camada ATTN completa para determinadas tarefas. Então as pessoas escolhem híbrido (por exemplo, como Qwen-next) 2. No entanto, mesmo camadas ATTN completas limitadas ainda podem ser caras para CTX muito longas, portanto, ATTN esparsas ainda são interessantes para substituir as camadas ATTN completas restantes. 3. Quando a finalidade para linear for aquecer o SWA com eficiência próxima mas melhores numéricos 4. Eu pessoalmente gosto muito do MoBA e do DSA, pois ele pode ser treinado e preserva as ótimas habilidades de atenção aprendidas durante os estágios completos de treinamento de atenção! Um pouco promocional aqui: o trabalho do moonshot, MoBA (aceito no NIPs 25, também é um attn esparso simples e eficiente, suportando totalmente o treinamento contínuo e não paramétrico