Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Llevando las tendencias, voces y perspectivas de IA y tecnología en China al escenario global.
⚡️Impulsado por Zhihu, la principal plataforma de conocimiento de China.
🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agent) — y aquí hay una evaluación en profundidad del colaborador de Zhihu toyama nao 👀
🔮 Resumen: Una revelación en medio del caos.
A lo largo de 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la cima de China y en el segundo nivel global. Desde el 1.5, Seed ha apostado fuertemente por la modelización multimodal unificada, una apuesta relativamente rara entre los modelos nacionales.
Dicho esto, Seed-1.6 fue muy criticado: la RL a gran escala mejoró las puntuaciones de referencia, pero la generalización en el mundo real se quedó atrás de Qwen3 y estaba lejos de los líderes globales. A medida que GLM y MiniMax se adentraron en aplicaciones de Agent, las débiles habilidades de agente de Doubao lo dejaron luchando.
Sin embargo, el regreso de Seed-1.8 al primer nivel no fue una sorpresa — la sorpresa es la eficiencia (Fig 1)‼️
La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que lo hace extremadamente rentable — un camino que recuerda a DeepSeek.
El nivel alto escala el razonamiento con presupuestos más grandes y se acerca notablemente a los mejores modelos de EE. UU. Con una fuerte visión y comprensión multimodal, además de la generación de imágenes/videos que solo está medio paso detrás — es justo llamar a Seed un "mini-Gemini."
Dónde mejora 🚀
1️⃣ Razonamiento de cadena larga:
Seed-1.8 mantiene el enfoque a lo largo de CoT mucho más largos, validando cuidadosamente las ramas para llegar a soluciones correctas.
Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda similar a la humana. Gemini 3 Pro y GPT-5.2 aún logran puntuaciones más altas con ~60% de los tokens — una señal de una inteligencia bruta más fuerte.
2️⃣ Extracción de información:
Alta precisión, pero ineficiente. Seed-1.8 tiende a reiterar y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento más bajos. Sin razonamiento habilitado, la extracción es casi inutilizable. (Gemini 3 Pro maneja la misma tarea en ~4K tokens.)
3️⃣ Programación:
Históricamente un punto débil, pero en mejora. Seed-1.8 hereda ganancias del reciente modelo de Código y es utilizable para "vibe coding" de 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistema.
Dónde aún falla ⚠️
1️⃣ Coherencia en múltiples turnos:
Mejor que Seed-1.6, ahora "básicamente utilizable", pero aún lucha por rastrear consistentemente los objetivos a lo largo de largas conversaciones. Después de ~10+ turnos, el razonamiento se desvía.
2️⃣ Inteligencia espacial:
La formación limitada se muestra. El rendimiento en razonamiento espacial 2D/3D apenas mejora sobre el 1.6.
🧠 Conclusión final
La estrategia multimodal unificada de Gemini ya ha formado un fuerte foso. La mayoría de los modelos chinos aún están atrapados en una competencia centrada en el texto. La decisión temprana de ByteDance de perseguir la multimodalidad unificada fue correcta — pero la deuda histórica pesa mucho.
Seed-1.8 no es perfecto. Sin embargo, a medida que las debilidades se llenan gradualmente — RL de múltiples turnos, profundidad de codificación, expansión del conocimiento, Seed aún puede encenderse como una estrella de la próxima era, impulsada por los masivos recursos a escala de internet de ByteDance✨
🔗 Artículo original (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

8
¿Cómo será la arquitectura de LLM de próxima generación?
Esta pregunta sigue generando debates, y el colaborador y desarrollador de Zhihu, Yuxuan, ofrece una comparación aguda entre DeepSeek Sparse Attention (DSA) y Native Sparse Attention (NSA), además de una mirada práctica a la implementación de operadores DSA con TileLang.
🚀 Por qué DSA > NSA (en tareas de contexto largo):
A partir de experimentos que añaden DSA a modelos pequeños y comparan con NSA, DSA consistentemente rinde mejor, principalmente debido a dos decisiones de diseño clave:
1️⃣ Destilación de Attn-Score → supervisión explícita para la selección de índices
2️⃣ Escasez a nivel de token en lugar de a nivel de bloque → recuperación más precisa y detallada
🔍 1) Destilación de Attn-Score
La atención escasa se basa en seleccionar los pares clave-valor correctos.
DSA supervisa directamente el módulo de índice utilizando verdaderos puntajes de atención, alineando el entrenamiento con el objetivo real: "seleccionar los tokens críticos."
NSA, en cambio, optimiza solo la pérdida del LM, sin proporcionar ninguna restricción explícita sobre la precisión del índice, lo que explica su rendimiento más débil en los benchmarks de recuperación de documentos largos.
🔍 2) Escasez a nivel de token vs a nivel de bloque
La precisión escala con el presupuesto de cómputo: un indexado más preciso → mejor recuperación.
El indexado a nivel de token (DSA) naturalmente produce una mayor fidelidad que a nivel de bloque (NSA).
Desde esta perspectiva, el cuello de botella en el rendimiento de NSA es esperado: una pregunta interesante: ¿Ayudaría un tamaño de bloque=8 a que NSA se pusiera al día con DSA?
⚙️ El verdadero desafío: entrenar DSA de manera eficiente
El entrenamiento de DSA implica Calentamiento → Ajuste fino escaso.
El desafío: calcular y almacenar los puntajes de atención de ambas ramas.
Una implementación ingenua requiere O(n²) de almacenamiento, lo que anula los ahorros de memoria de FlashAttention.
Incluso el pre-filtrado (k=2048, h=512+64) aún demanda grandes búferes.
📎 Código:
🧩 Fusión de Kernels para el rescate (Fig 1)
Para evitar almacenar enormes puntajes de atención intermedios, DSA utiliza kernels fusionados.
Un truco clave es fusionar Index-Score + Top-k en un solo kernel:
• Mantener un búfer de 2K
• Calcular Index-Score para cada bloque
• Ejecutar una fusión basada en orden bitónico
• Mantener los puntajes top-K y sus posiciones
No se requiere CUDA: implementado con el DSL de TileLang, inspirado en fla-org/native-sparse-attention.
🧾 Resumen
La ventaja de DSA sobre NSA proviene de:
• Destilación de Attn-Score (supervisión explícita)
• Escasez a nivel de token (mayor precisión en el índice)
Y con la fusión de kernels, su costoso pipeline de entrenamiento se vuelve factible en términos de memoria.
📖 Lee el artículo completo:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

650
🤔 Baidu ERNIE 5.0 ya está aquí — ¿qué tan bueno es realmente?
Una reseña muy leída del colaborador de Zhihu toyama nao ofrece desgloses claros.
Baidu ha estado detrás de OpenAI por 3-6 meses con lanzamientos de versiones coincidentes. Después de GPT-5, ERNIE 5.0 llegó a tiempo — y a diferencia del apresurado 4.5, finalmente parece un modelo nacional sólido de primer nivel.
El rendimiento aumenta ~80% sobre X1.1, igualando aproximadamente a MiniMax M2. Los datos de entrenamiento parecen haber sido reconstruidos: las salidas son mucho más limpias y coherentes (Fig 1).
👇 Aquí está la comparación destilada:
✅Dónde ERNIE 5.0 Mejora
• Seguimiento de instrucciones: Altas puntuaciones e incluso picos de primer nivel — pero con extrañas fallas en el extremo bajo (por ejemplo, formatos de fecha inconsistentes en los pases).
• Cálculo básico: Fiable para matemáticas de nivel K12; más estable que X1.1, aunque aún más débil que M2 en tareas complejas.
• Salida mucho más limpia: X1.1 sufría de datos destilados ruidosos y traducciones torpes. ERNIE 5.0 soluciona en gran medida esto: cadenas de pensamiento más claras, respuestas finales más limpias, mejor legibilidad.
🙋 Dónde Aún Lucha
• Alta tasa de alucinaciones: Demasiadas respuestas seguras pero incorrectas sobre recuperación de símbolos matemáticos, desorden de caracteres y tareas de contexto largo — más cerca de un rendimiento de razonamiento de segundo nivel.
• Baja perspicacia: No logra detectar patrones subyacentes (#46 patrón de letras, #32 razonamiento calendárico), a menudo fuerza en lugar de abstraer.
• Bucles infinitos ocasionales: Raros (<3%) pero sorprendentes, dado que habían desaparecido en modelos nacionales recientes.
• Débil capacidad de múltiples turnos: A menudo olvida reglas o turnos anteriores antes de la ronda 7; los bucles se activan más fácilmente.
💬El Veredicto
La era de los billones de parámetros de China apenas tiene 3 meses, y Baidu ya saltó a un modelo de 2T.
Sin embargo, comparado con Kimi K2 Thinking, ERNIE 5.0 se siente un poco "inflado" — grande, capaz, pero no utilizando completamente su peso.
Aún así, esto puede ser la señal de regreso tan esperada de @Baidu_Inc — un recordatorio de que Baidu tiene la intención de permanecer en la carrera de LLM.
📖 Evaluación completa:
🔗 Referencia:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

710
Parte superior
Clasificación
Favoritos
