Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Llevando las tendencias, voces y perspectivas de IA y tecnología en China al escenario global.
⚡️Impulsado por Zhihu, la principal plataforma de conocimiento de China.
🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agente) — y aquí tienes una evaluación en profundidad del colaborador de Zhihu toyama nao 👀
🔮 Resumen; DR: Una revelación en medio del caos.
Durante 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la élite china y en la segunda categoría global. Desde la versión 1.5, Seed ha redoblado la apuesta por el modelado multimodal unificado, una apuesta relativamente rara entre los modelos nacionales.
Dicho esto, Seed-1.6 fue duramente criticado: el RL a gran escala impulsó las puntuaciones de benchmark, pero la generalización en el mundo real quedó por detrás de Qwen3 y estuvo lejos de ser líder global. A medida que GLM y MiniMax se inclinaban hacia las aplicaciones de Agente, las débiles habilidades de Doubao le dejaban con dificultades.
Sin embargo, el regreso de la Seed-1.8 al primer nivel no fue una sorpresa — ¡la sorpresa es la eficiencia (Fig. 1)! !️
La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que la hace extremadamente rentable — un camino que recuerda a DeepSeek.
El segmento alto escala con presupuestos más altos y se acerca notablemente a los mejores modelos estadounidenses. Con una visión fuerte y un entendimiento multimodal, además de la generación de imágenes/vídeos apenas medio paso por detrás — es justo llamar a Seed un "mini-Géminis".
Donde mejora 🚀
1️⃣ Razonamiento de cadena larga:
Seed-1.8 mantiene el enfoque a lo largo de mucho más tiempo en CoT, validando cuidadosamente las ramas para alcanzar las soluciones correctas.
Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda y humana. Gemini 3 Pro y GPT-5.2 siguen logrando puntuaciones más altas con un ~60% de los tokens, lo que indica una inteligencia bruta más fuerte.
2️⃣ Extracción de información:
Alta precisión, pero ineficiente. Seed-1.8 tiende a reformular y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento bajos. Sin la razón activada, la extracción es casi inutilizable. (Gemini 3 Pro realiza la misma tarea en ~4K tokens.)
3️⃣ Codificación:
Históricamente es un punto débil, pero está mejorando. Seed-1.8 hereda las ganancias del modelo Code reciente y es utilizable para el "vibe code" 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistemas.
Donde aún no queda ⚠️
1️⃣ Coherencia en varios giros:
Mejor que Seed-1.6, ahora "básicamente utilizable", pero sigue teniendo dificultades para seguir objetivos de forma consistente en largas conversaciones. Después de ~10+ turnos, la razón se desvía.
2️⃣ Inteligencia espacial:
Programas de entrenamiento limitados. El rendimiento en razonamiento espacial 2D/3D apenas mejora respecto a la versión 1.6.
🧠 Toma final
La estrategia multimodal unificada de Géminis ya ha formado un fuerte foso. La mayoría de los modelos chinos siguen atrapados en una competencia centrada en el texto. La decisión inicial de ByteDance de buscar la multimodalidad unificada fue acertada, pero la deuda histórica pesa mucho.
La semilla-1.8 no es perfecta. Sin embargo, a medida que se van cubriendo las debilidades —RL de varios turnos, profundidad de programación, expansión del conocimiento—, Seed aún podría brillar como una estrella de la próxima era, impulsada por los enormes recursos✨ a escala de internet de ByteDance
🔗 Artículo original (CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

56
¿Cómo será la arquitectura de LLM de próxima generación?
Esta pregunta sigue generando debates — y Yuxuan, colaborador y desarrollador de Zhihu, ofrece una comparación precisa entre DeepSeek Sparse Attention (DSA) y Native Sparse Attention (NSA), además de una visión práctica sobre cómo implementar operadores de DSA con TileLang.
🚀 Por qué la DSA > NSA (en tareas de largo contexto):
Desde experimentos que añadieron DSA a modelos pequeños y comparándolos con NSA, DSA rinde consistentemente mejor — principalmente debido a dos decisiones clave de diseño:
1️⃣ La destilación Attn-Score → supervisión explícita para la selección de índices
2️⃣ Esparsidad a nivel de token en lugar de a nivel de bloque→ recuperación más fina y precisa
🔍 1) Destilación de Attn-Score
La poca atención depende de seleccionar los pares clave-valor adecuados.
DSA supervisa directamente el módulo índice utilizando puntuaciones de atención reales, alineando la formación con el objetivo real: "elegir los tokens críticos."
La NSA optimiza en cambio solo la pérdida de LM, sin proporcionar ninguna restricción explícita en la precisión del índice — lo que explica su menor rendimiento en benchmarks de recuperación de documentos largos.
🔍 2) Escasidez a nivel de ficha frente a bloque
La precisión escala con el presupuesto de cálculo: una indexación más precisa → mejor recuperación.
La indexación a nivel de token (DSA) naturalmente proporciona una mayor fidelidad que la a nivel de bloque (NSA).
Desde esta perspectiva, se espera el cuello de botella de rendimiento de la NSA — una pregunta interesante: ¿Ayudaría el tamaño del bloque = 8 a la NSA a alcanzar la DSA?
⚙️ El verdadero reto: entrenar a la DSA de forma eficiente
El entrenamiento DSA incluye Warmup → Sparse Finetune.
El reto: calcular y almacenar las puntuaciones de atención de ambas ramas.
Una implementación ingenua requiere almacenamiento O(n²), lo que anula el ahorro de memoria de FlashAttention.
Incluso el prefiltrado (k=2048, h=512+64) sigue exigiendo grandes búferes.
📎 Código:
🧩 Fusión de núcleos al rescate (Fig. 1)
Para evitar almacenar enormes puntuaciones intermedias de Attn, DSA utiliza núcleos fusionados.
Un truco clave es fusionar Index-Score + Top-k en un mismo núcleo:
• Mantener un buffer de 2K
• Calcular la puntuación índice para cada bloque
• Ejecutar una fusión basada en ordenación bitónica
• Mantener las puntuaciones de los primeros de K y sus posiciones
No se requiere CUDA — implementado con DSL TileLang, inspirado en fla-org/native-sparse-attention.
🧾 Resumen
La ventaja de la DSA sobre la NSA proviene de:
• Destilación Attn-Score (supervisión explícita)
• Esparsidad a nivel de token (mayor precisión en el índice)
Y con la fusión de núcleos, su costosa pipeline de entrenamiento se vuelve factible en memoria.
📖 Lee el artículo completo:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

702
🤔 Baidu ERNIE 5.0 ya está aquí, ¿qué tan bueno es realmente?
Una reseña ampliamente leída del colaborador de Zhihu, toyama nao, ofrece desgloses claros.
Baidu ha estado detrás de OpenAI por 3-6 meses con lanzamientos de versiones coincidentes. Después de GPT-5, ERNIE 5.0 llegó en el momento oportuno y, a diferencia del apresurado 4.5, finalmente parece un modelo doméstico sólido de primer nivel.
El rendimiento salta ~80% sobre X1.1, igualando aproximadamente a MiniMax M2. Los datos de entrenamiento parecen reconstruidos: los resultados son mucho más limpios y coherentes (Fig. 1).
👇 Aquí está la comparación destilada:
✅Donde ERNIE 5.0 mejora
• Seguimiento de instrucciones: puntajes altos e incluso picos de primer nivel, pero con fallas extrañas de bajo nivel (por ejemplo, formatos de fecha inconsistentes en todos los pases).
• Computación básica: confiable para matemáticas de nivel K12; más estable que X1.1, aunque aún más débil que M2 en tareas complejas.
• Salida mucho más limpia: X1.1 sufría de datos destilados ruidosos y traducciones incómodas. ERNIE 5.0 soluciona esto en gran medida: cadenas de pensamiento más claras, respuestas finales más limpias, mejor legibilidad.
🙋 Donde todavía tiene dificultades
• Alta tasa de alucinaciones: demasiadas respuestas seguras pero incorrectas en la recuperación de símbolos matemáticos, la codificación de caracteres y las tareas de contexto largo, más cercanas al rendimiento de razonamiento de segundo nivel.
• Baja perspicacia: No detecta patrones subyacentes (patrón de letras # 46, razonamiento calendárico # 32), a menudo forzando en lugar de abstraer.
• Bucles infinitos ocasionales: Raros (<3%) pero sorprendentes, dado que habían desaparecido en los modelos domésticos recientes.
• Habilidad débil en varios turnos: A menudo olvida las reglas o los turnos anteriores antes de la ronda 7; se activan más fácilmente.
💬El veredicto
La era de los billones de parámetros de China tiene apenas 3 meses, y Baidu ya saltó a un modelo 2T.
Sin embargo, en comparación con Kimi K2 Thinking, ERNIE 5.0 se siente un poco "hinchado": grande, capaz, pero no completamente usando su peso.
Aún así, esta puede ser la tan esperada señal de regreso de @Baidu_Inc, un recordatorio de que Baidu tiene la intención de permanecer en la carrera de LLM.
📖 Evaluación completa:
🔗 Punto de referencia:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

784
Populares
Ranking
Favoritas
