Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por que o dpskv3.2 é empolgante tanto para as comunidades de atenção esparsa quanto para as de atenção linear de @SonglinYang4 (Alerta: isso está em Chinês)
o resumo básico é:
1. afinal, embora swa e atenção linear sejam populares, ainda é difícil se livrar da camada de atenção total para certas tarefas. então as pessoas escolhem híbridos (por exemplo, como o qwen-next)
2. no entanto, mesmo camadas limitadas de atenção total ainda podem ser caras para contextos muito longos, então a atenção esparsa ainda é interessante para substituir as camadas restantes de atenção total.
3. enquanto o propósito da linear é aquecer a swa com eficiência próxima, mas com melhores números
4. pessoalmente, gosto muito do MoBA e DSA, pois podem ser treinados continuamente e preservam as ótimas habilidades de atenção aprendidas durante as etapas de treinamento de atenção total!
Um pouco de promoção aqui: o trabalho da moonshot, MoBA (aceito no NIPs 25, também é uma atenção esparsa simples e eficiente, totalmente suportando treinamento contínuo e não paramétrico.
Top
Classificação
Favoritos