Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Como será a arquitetura de LLM de próxima geração?
Essa questão continua gerando debates — e o colaborador e desenvolvedor da Zhihu, Yuxuan, oferece uma comparação clara entre o DeepSeek Sparse Attention (DSA) e o Native Sparse Attention (NSA), além de uma análise prática sobre a implementação de operadores de DSA com o TileLang.
🚀 Por que a DSA > NSA (em tarefas de longo contexto):
Desde experimentos adicionando DSA a modelos pequenos e comparando com a NSA, a DSA consistentemente tem um desempenho melhor — principalmente devido a duas escolhas de design chave:
1️⃣ Destilação Attn-Score → supervisão explícita para seleção de índice
2️⃣ Esparsão em nível de token em vez de nível de bloco→ recuperação mais detalhada e precisa
🔍 1) Destilação Attn-Score
A atenção escassa depende de selecionar os pares-chave e valor corretos.
A DSA supervisiona diretamente o módulo de índice usando escores de atenção verdadeiros, alinhando o treinamento com o objetivo real: "escolher os tokens críticos."
A NSA, em vez disso, otimiza apenas a perda do LM, não fornecendo nenhuma restrição explícita à precisão do índice — o que explica seu desempenho mais fraco em benchmarks de recuperação de documentos longos.
🔍 2) Esparsidade em Token vs Nível de Bloco
Precisão escala com o orçamento computacional: indexação mais precisa → melhor recuperação.
A indexação em nível de token (DSA) naturalmente gera maior fidelidade do que a nível de bloco (NSA).
Sob essa perspectiva, o gargalo de desempenho da NSA é esperado — uma questão interessante: tamanho de bloco=8 ajudaria a NSA a alcançar a DSA?
⚙️ O Verdadeiro Desafio: Treinar DSA de forma eficiente
O treinamento DSA envolve Aquecimento → Finotamento Esparso.
O desafio: calcular e armazenar as pontuações de atenção dos dois ramos.
Uma implementação ingênua requer armazenamento O(n²) — anulando a economia de memória do FlashAttention.
Mesmo a pré-filtragem (k=2048, h=512+64) ainda exige grandes buffers.
📎 Código:
🧩 Fusão de Grãos ao Resgate (Fig. 1)
Para evitar armazenar Attn-Scores intermediários massivos, a DSA utiliza kernels fundidos.
Um truque chave é fundir Index-Score + Top-k em um kernel:
• Manter um buffer de 2K
• Calcular o Índice de Pontuação para cada bloco...

Melhores
Classificação
Favoritos

