Por que o dpskv3.2 é empolgante tanto para as comunidades de atenção esparsa quanto para as de atenção linear de @SonglinYang4 (Alerta: isso está em Chinês) o resumo básico é: 1. afinal, embora swa e atenção linear sejam populares, ainda é difícil se livrar da camada de atenção total para certas tarefas. então as pessoas escolhem híbridos (por exemplo, como o qwen-next) 2. no entanto, mesmo camadas limitadas de atenção total ainda podem ser caras para contextos muito longos, então a atenção esparsa ainda é interessante para substituir as camadas restantes de atenção total. 3. enquanto o propósito da linear é aquecer a swa com eficiência próxima, mas com melhores números 4. pessoalmente, gosto muito do MoBA e DSA, pois podem ser treinados continuamente e preservam as ótimas habilidades de atenção aprendidas durante as etapas de treinamento de atenção total! Um pouco de promoção aqui: o trabalho da moonshot, MoBA (aceito no NIPs 25, também é uma atenção esparsa simples e eficiente, totalmente suportando treinamento contínuo e não paramétrico.