Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Trazendo as tendências, vozes e perspectivas chinesas de IA e tecnologia para o cenário global.
⚡️Impulsionado pela Zhihu, a principal plataforma de conhecimento da China.
🔥 A ByteDance acabou de lançar o Doubao-Seed-1.8 (modelo Agente) — e aqui está uma avaliação detalhada do colaborador da Zhihu toyama nao 👀
🔮 Resumo; DR: Uma abertura de olhos no meio do caos.
Ao longo de 2025, os modelos 1.5 e 1.6 da equipe Seed permaneceram firmemente no topo da China e no segundo escalão global. Desde a versão 1.5, a Seed reforçou a modelagem multimodal unificada, uma aposta relativamente rara entre modelos domésticos.
Dito isso, a Semente-1.6 foi fortemente criticada: o RL em grande escala impulsionou as pontuações de benchmark, mas a generalização do mundo real ficou atrás do Qwen3 e estava longe de ser líder global. À medida que GLM e MiniMax se dedicavam às aplicações de Agente, as habilidades fracas de Doubao deixaram o Doubao com dificuldades.
No entanto, o retorno da Semente-1.8 ao primeiro escalão não foi surpresa — a surpresa é a eficiência (Fig. 1)! !️
A versão média atinge a mesma inteligência da Seed-1.6 usando 5K tokens em vez de 15K, a um preço de entrada de ¥2, tornando-a extremamente econômica — um caminho que lembra o DeepSeek.
O segmento de alto nível escala com orçamentos maiores e chega notavelmente perto dos melhores modelos americanos. Com visão forte e compreensão multimodal, além da geração de imagens/vídeos apenas meio passo atrás — é justo chamar o Seed de um "mini-Gemini".
Onde melhora 🚀
1️⃣ Raciocínio de cadeia longa:
Seed-1.8 mantém o foco em CoT muito mais longo, validando cuidadosamente os ramos para alcançar as soluções corretas.
Sua força vem mais da atenção sustentada e da busca exaustiva do que da abstração profunda e semelhante à humana. Gemini 3 Pro e GPT-5.2 ainda alcançam pontuações mais altas com ~60% dos tokens — um sinal de inteligência bruta mais forte.
2️⃣ Extração de informação:
Alta precisão, mas ineficiente. Seed-1.8 tende a reformular e anotar o texto fonte completo durante o CoT. Uma tarefa simples de extração de 10K pode custar 2× tokens, e a precisão cai drasticamente com orçamentos de raciocínio mais baixos. Sem o raciocínio ativado, a extração é quase inutilizável. (Gemini 3 Pro faz a mesma tarefa em ~4K tokens.)
3️⃣ Programação:
Historicamente um ponto fraco, mas está melhorando. Seed-1.8 herda ganhos do modelo Code recente e é utilizável para codificação 0→1 "vibe". Ainda está longe de modelos de engenharia de alto nível — especialmente no pensamento em nível de sistema.
Onde ainda não funciona ⚠️
1️⃣ Coerência em múltiplas voltas:
Melhor que o Seed-1.6, agora "basicamente utilizável", mas ainda tem dificuldade em acompanhar metas de forma consistente em longas conversas. Após ~10+ turnos, o raciocínio se desvia.
2️⃣ Inteligência espacial:
Treinamentos limitados. O desempenho em raciocínio espacial 2D/3D mal melhora em relação ao 1.6.
🧠 Tomada final
A estratégia multimodal unificada da Gemini já formou um forte fosso. A maioria dos modelos chineses ainda está presa em competição centrada em texto. A decisão inicial da ByteDance de buscar a multimodalidade unificada estava certa — mas a dívida histórica pesa muito.
Semente-1.8 não é perfeito. No entanto, à medida que as fraquezas são gradualmente preenchidas — RL em múltiplas turnos, profundidade de programação, expansão do conhecimento — a Seed ainda pode se destacar como uma estrela da próxima era, impulsionada pelos enormes recursos✨ da ByteDance em escala na internet
🔗 Artigo Original (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

54
Como será a arquitetura de LLM de próxima geração?
Essa questão continua gerando debates — e o colaborador e desenvolvedor da Zhihu, Yuxuan, oferece uma comparação clara entre o DeepSeek Sparse Attention (DSA) e o Native Sparse Attention (NSA), além de uma análise prática sobre a implementação de operadores de DSA com o TileLang.
🚀 Por que a DSA > NSA (em tarefas de longo contexto):
Desde experimentos adicionando DSA a modelos pequenos e comparando com a NSA, a DSA consistentemente tem um desempenho melhor — principalmente devido a duas escolhas de design chave:
1️⃣ Destilação Attn-Score → supervisão explícita para seleção de índice
2️⃣ Esparsão em nível de token em vez de nível de bloco→ recuperação mais detalhada e precisa
🔍 1) Destilação Attn-Score
A atenção escassa depende de selecionar os pares-chave e valor corretos.
A DSA supervisiona diretamente o módulo de índice usando escores de atenção verdadeiros, alinhando o treinamento com o objetivo real: "escolher os tokens críticos."
A NSA, em vez disso, otimiza apenas a perda do LM, não fornecendo nenhuma restrição explícita à precisão do índice — o que explica seu desempenho mais fraco em benchmarks de recuperação de documentos longos.
🔍 2) Esparsidade em Token vs Nível de Bloco
Precisão escala com o orçamento computacional: indexação mais precisa → melhor recuperação.
A indexação em nível de token (DSA) naturalmente gera maior fidelidade do que a nível de bloco (NSA).
Sob essa perspectiva, o gargalo de desempenho da NSA é esperado — uma questão interessante: tamanho de bloco=8 ajudaria a NSA a alcançar a DSA?
⚙️ O Verdadeiro Desafio: Treinar DSA de forma eficiente
O treinamento DSA envolve Aquecimento → Finotamento Esparso.
O desafio: calcular e armazenar as pontuações de atenção dos dois ramos.
Uma implementação ingênua requer armazenamento O(n²) — anulando a economia de memória do FlashAttention.
Mesmo a pré-filtragem (k=2048, h=512+64) ainda exige grandes buffers.
📎 Código:
🧩 Fusão de Grãos ao Resgate (Fig. 1)
Para evitar armazenar Attn-Scores intermediários massivos, a DSA utiliza kernels fundidos.
Um truque chave é fundir Index-Score + Top-k em um kernel:
• Manter um buffer de 2K
• Calcular o Índice de Pontuação para cada bloco
• Executar fusão baseada em ordenação bitônica
• Manter as pontuações do top-K e suas posições
Não é necessário CUDA — implementado com DSL TileLang, inspirado no fla-org/native-spars-attention.
🧾 Resumo
A vantagem da DSA sobre a NSA decorre de:
• Destilação Attn-Score (supervisão explícita)
• Esparsidade em nível de token (maior precisão no índice)
E com a fusão kernel, seu custoso pipeline de treinamento se torna viável em memória.
📖 Leia o artigo completo:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

700
🤔 O Baidu ERNIE 5.0 está aqui - quão bom é realmente?
Uma crítica amplamente lida do colaborador do Zhihu, toyama nao, oferece análises claras.
O Baidu ficou atrás do OpenAI em 3-6 meses com lançamentos correspondentes à versão. Depois do GPT-5, o ERNIE 5.0 chegou na hora certa - e, ao contrário do 4.5 apressado, finalmente parece um modelo doméstico sólido de primeira linha.
O desempenho salta ~ 80% em relação ao X1.1, igualando aproximadamente o MiniMax M2. Os dados de treinamento parecem reconstruídos: os resultados são muito mais limpos e coerentes (Fig. 1).
👇 Aqui está a comparação destilada:
✅Onde o ERNIE 5.0 fica melhor
• Seguimento de instruções: Pontuações altas e até picos de primeira linha - mas com falhas estranhas de baixo custo (por exemplo, formatos de data inconsistentes entre as passagens).
• Computação básica: Confiável para matemática de nível K12; mais estável que X1.1, embora ainda mais fraco que M2 em tarefas complexas.
• Saída muito mais limpa: X1.1 sofria de dados destilados ruidosos e traduções desajeitadas. O ERNIE 5.0 corrige isso em grande parte: cadeias de pensamento mais claras, respostas finais mais limpas, melhor legibilidade.
🙋 Onde ainda luta
• Alta taxa de alucinação: Muitas respostas confiantes, mas erradas, sobre recuperação de símbolos matemáticos, embaralhamento de caracteres e tarefas de contexto longo - mais próximas do desempenho de raciocínio de segundo nível.
• Baixa perspicácia: Não consegue detectar padrões subjacentes (padrão de letra # 46, raciocínio calendárico # 32), muitas vezes força bruta em vez de abstração.
• Loops infinitos ocasionais: Raros (<3%), mas surpreendentes, já que desapareceram nos modelos domésticos recentes.
• Habilidade fraca de vários turnos: Muitas vezes esquece regras ou turnos anteriores antes da rodada 7; loops acionados com mais facilidade.
💬O Veredicto
A era de trilhões de parâmetros da China tem apenas 3 meses, e o Baidu já saltou para um modelo 2T.
No entanto, comparado com o Kimi K2 Thinking, o ERNIE 5.0 parece um pouco "inchado" - grande, capaz, mas não usando totalmente seu peso.
Ainda assim, este pode ser o tão esperado sinal de retorno de @Baidu_Inc - um lembrete de que o Baidu pretende permanecer na corrida do LLM.
📖 Avaliação completa:
🔗 Ponto de referência:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

781
Melhores
Classificação
Favoritos
