Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zhihu Frontier
🚀Llevando las tendencias, voces y perspectivas de IA y tecnología en China al escenario global.
⚡️Impulsado por Zhihu, la principal plataforma de conocimiento de China.
¿Cómo será la arquitectura de LLM de próxima generación?
Esta pregunta sigue generando debates — y Yuxuan, colaborador y desarrollador de Zhihu, ofrece una comparación precisa entre DeepSeek Sparse Attention (DSA) y Native Sparse Attention (NSA), además de una visión práctica sobre cómo implementar operadores de DSA con TileLang.
🚀 Por qué la DSA > NSA (en tareas de largo contexto):
Desde experimentos que añadieron DSA a modelos pequeños y comparándolos con NSA, DSA rinde consistentemente mejor — principalmente debido a dos decisiones clave de diseño:
1️⃣ La destilación Attn-Score → supervisión explícita para la selección de índices
2️⃣ Esparsidad a nivel de token en lugar de a nivel de bloque→ recuperación más fina y precisa
🔍 1) Destilación de Attn-Score
La poca atención depende de seleccionar los pares clave-valor adecuados.
DSA supervisa directamente el módulo índice utilizando puntuaciones de atención reales, alineando la formación con el objetivo real: "elegir los tokens críticos."
La NSA optimiza en cambio solo la pérdida de LM, sin proporcionar ninguna restricción explícita en la precisión del índice — lo que explica su menor rendimiento en benchmarks de recuperación de documentos largos.
🔍 2) Escasidez a nivel de ficha frente a bloque
La precisión escala con el presupuesto de cálculo: una indexación más precisa → mejor recuperación.
La indexación a nivel de token (DSA) naturalmente proporciona una mayor fidelidad que la a nivel de bloque (NSA).
Desde esta perspectiva, se espera el cuello de botella de rendimiento de la NSA — una pregunta interesante: ¿Ayudaría el tamaño del bloque = 8 a la NSA a alcanzar la DSA?
⚙️ El verdadero reto: entrenar a la DSA de forma eficiente
El entrenamiento DSA incluye Warmup → Sparse Finetune.
El reto: calcular y almacenar las puntuaciones de atención de ambas ramas.
Una implementación ingenua requiere almacenamiento O(n²), lo que anula el ahorro de memoria de FlashAttention.
Incluso el prefiltrado (k=2048, h=512+64) sigue exigiendo grandes búferes.
📎 Código:
🧩 Fusión de núcleos al rescate (Fig. 1)
Para evitar almacenar enormes puntuaciones intermedias de Attn, DSA utiliza núcleos fusionados.
Un truco clave es fusionar Index-Score + Top-k en un mismo núcleo:
• Mantener un buffer de 2K
• Calcular la puntuación índice para cada bloque
• Ejecutar una fusión basada en ordenación bitónica
• Mantener las puntuaciones de los primeros de K y sus posiciones
No se requiere CUDA — implementado con DSL TileLang, inspirado en fla-org/native-sparse-attention.
🧾 Resumen
La ventaja de la DSA sobre la NSA proviene de:
• Destilación Attn-Score (supervisión explícita)
• Esparsidad a nivel de token (mayor precisión en el índice)
Y con la fusión de núcleos, su costosa pipeline de entrenamiento se vuelve factible en memoria.
📖 Lee el artículo completo:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

8.23K
🤔 Baidu ERNIE 5.0 ya está aquí, ¿qué tan bueno es realmente?
Una reseña ampliamente leída del colaborador de Zhihu, toyama nao, ofrece desgloses claros.
Baidu ha estado detrás de OpenAI por 3-6 meses con lanzamientos de versiones coincidentes. Después de GPT-5, ERNIE 5.0 llegó en el momento oportuno y, a diferencia del apresurado 4.5, finalmente parece un modelo doméstico sólido de primer nivel.
El rendimiento salta ~80% sobre X1.1, igualando aproximadamente a MiniMax M2. Los datos de entrenamiento parecen reconstruidos: los resultados son mucho más limpios y coherentes (Fig. 1).
👇 Aquí está la comparación destilada:
✅Donde ERNIE 5.0 mejora
• Seguimiento de instrucciones: puntajes altos e incluso picos de primer nivel, pero con fallas extrañas de bajo nivel (por ejemplo, formatos de fecha inconsistentes en todos los pases).
• Computación básica: confiable para matemáticas de nivel K12; más estable que X1.1, aunque aún más débil que M2 en tareas complejas.
• Salida mucho más limpia: X1.1 sufría de datos destilados ruidosos y traducciones incómodas. ERNIE 5.0 soluciona esto en gran medida: cadenas de pensamiento más claras, respuestas finales más limpias, mejor legibilidad.
🙋 Donde todavía tiene dificultades
• Alta tasa de alucinaciones: demasiadas respuestas seguras pero incorrectas en la recuperación de símbolos matemáticos, la codificación de caracteres y las tareas de contexto largo, más cercanas al rendimiento de razonamiento de segundo nivel.
• Baja perspicacia: No detecta patrones subyacentes (patrón de letras # 46, razonamiento calendárico # 32), a menudo forzando en lugar de abstraer.
• Bucles infinitos ocasionales: Raros (<3%) pero sorprendentes, dado que habían desaparecido en los modelos domésticos recientes.
• Habilidad débil en varios turnos: A menudo olvida las reglas o los turnos anteriores antes de la ronda 7; se activan más fácilmente.
💬El veredicto
La era de los billones de parámetros de China tiene apenas 3 meses, y Baidu ya saltó a un modelo 2T.
Sin embargo, en comparación con Kimi K2 Thinking, ERNIE 5.0 se siente un poco "hinchado": grande, capaz, pero no completamente usando su peso.
Aún así, esta puede ser la tan esperada señal de regreso de @Baidu_Inc, un recordatorio de que Baidu tiene la intención de permanecer en la carrera de LLM.
📖 Evaluación completa:
🔗 Punto de referencia:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

45.51K
🚀 Lanzamiento especial ya disponible: La próxima ola: quién codifica el futuro: el informe del ecosistema de desarrolladores de IA de @ZhihuFrontier × @ModelScope2022
🔎 Explora aquí →
📌 Aspectos destacados del informe técnico
• Por primera vez, un retrato sistemático y basado en datos de los desarrolladores de la era de la IA de China: cómo aprenden, se equipan, colaboran y construyen.
• Revela un cambio de la codificación tradicional al "desarrollo basado en la intención, de pila completa y habilitado por agentes".
• Mapea el surgimiento de un nuevo arquetipo de desarrollador: el creador en solitario, defensor del código abierto y creador de agentes, listo para definir la próxima década de creación de IA.
🔢 Datos clave destacados
• La industria de IA de China está valorada en 700 mil millones de yenes en 2024, en camino de superar el billón de yenes.
• Educación: el 93,35% de los desarrolladores encuestados de la era de la IA tienen una licenciatura o superior; casi la mitad con maestría/doctorado.
• Roles laborales: el 50,7% trabaja en Internet/Software, el 32,7% en campos relacionados con la IA.
• Tamaño de la organización: el 24,27% de los desarrolladores están en grandes empresas (>1.000 empleados); 20.74% en equipos <50; 13,7% independiente.
• Motivación: el 63,6% se une a la IA por pasión por la tecnología; solo el 25,6% lo hace por ingresos más altos.
• Preocupación: el 79,4% se preocupa más por convertir la IA en valor comercial real; solo el 36,5% teme que la IA los reemplace.
🔔 Sumérgete ahora y descubre quién codifica el futuro y cómo lo está construyendo.
#AI #Developers #Zhihu #ModelScope #AIecosystem

6.71K
Populares
Ranking
Favoritas

