Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por que o dpskv3.2 é empolgante para as comunidades esparsas e lineares do @SonglinYang4 (Alerta: isso está em chinês)
O resumo básico é:
1. Afinal, embora SWA e Linear ATTN sejam populares, ainda é difícil se livrar da camada ATTN completa para determinadas tarefas. Então as pessoas escolhem híbrido (por exemplo, como Qwen-next)
2. No entanto, mesmo camadas ATTN completas limitadas ainda podem ser caras para CTX muito longas, portanto, ATTN esparsas ainda são interessantes para substituir as camadas ATTN completas restantes.
3. Quando a finalidade para linear for aquecer o SWA com eficiência próxima mas melhores numéricos
4. Eu pessoalmente gosto muito do MoBA e do DSA, pois ele pode ser treinado e preserva as ótimas habilidades de atenção aprendidas durante os estágios completos de treinamento de atenção!
Um pouco promocional aqui: o trabalho do moonshot, MoBA (aceito no NIPs 25, também é um attn esparso simples e eficiente, suportando totalmente o treinamento contínuo e não paramétrico
Melhores
Classificação
Favoritos