DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Como será a arquitetura de LLM de próxima geração? Essa questão continua gerando debates — e o colaborador e desenvolvedor da Zhihu, Yuxuan, oferece uma comparação clara entre o DeepSeek Sparse Attention (DSA) e o Native Sparse Attention (NSA), além de uma análise prática sobre a implementação de operadores de DSA com o TileLang. 🚀 Por que a DSA > NSA (em tarefas de longo contexto): Desde experimentos adicionando DSA a modelos pequenos e comparando com a NSA, a DSA consistentemente tem um desempenho melhor — principalmente devido a duas escolhas de design chave: 1️⃣ Destilação Attn-Score → supervisão explícita para seleção de índice 2️⃣ Esparsão em nível de token em vez de nível de bloco→ recuperação mais detalhada e precisa 🔍 1) Destilação Attn-Score A atenção escassa depende de selecionar os pares-chave e valor corretos. A DSA supervisiona diretamente o módulo de índice usando escores de atenção verdadeiros, alinhando o treinamento com o objetivo real: "escolher os tokens críticos." A NSA, em vez disso, otimiza apenas a perda do LM, não fornecendo nenhuma restrição explícita à precisão do índice — o que explica seu desempenho mais fraco em benchmarks de recuperação de documentos longos. 🔍 2) Esparsidade em Token vs Nível de Bloco Precisão escala com o orçamento computacional: indexação mais precisa → melhor recuperação. A indexação em nível de token (DSA) naturalmente gera maior fidelidade do que a nível de bloco (NSA). Sob essa perspectiva, o gargalo de desempenho da NSA é esperado — uma questão interessante: tamanho de bloco=8 ajudaria a NSA a alcançar a DSA? ⚙️ O Verdadeiro Desafio: Treinar DSA de forma eficiente O treinamento DSA envolve Aquecimento → Finotamento Esparso. O desafio: calcular e armazenar as pontuações de atenção dos dois ramos. Uma implementação ingênua requer armazenamento O(n²) — anulando a economia de memória do FlashAttention. Mesmo a pré-filtragem (k=2048, h=512+64) ainda exige grandes buffers. 📎 Código: 🧩 Fusão de Grãos ao Resgate (Fig. 1) Para evitar armazenar Attn-Scores intermediários massivos, a DSA utiliza kernels fundidos. Um truque chave é fundir Index-Score + Top-k em um kernel: • Manter um buffer de 2K • Calcular o Índice de Pontuação para cada bloco...

Melhores

Classificação

Favoritos