DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Zhihu Frontier

🚀Llevando las tendencias, voces y perspectivas de IA y tecnología en China al escenario global. ⚡️Impulsado por Zhihu, la principal plataforma de conocimiento de China.

🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agent) — y aquí hay una evaluación en profundidad del colaborador de Zhihu toyama nao 👀 🔮 Resumen: Una revelación en medio del caos. A lo largo de 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la cima de China y en el segundo nivel global. Desde el 1.5, Seed ha apostado fuertemente por la modelización multimodal unificada, una apuesta relativamente rara entre los modelos nacionales. Dicho esto, Seed-1.6 fue muy criticado: la RL a gran escala mejoró las puntuaciones de referencia, pero la generalización en el mundo real se quedó atrás de Qwen3 y estaba lejos de los líderes globales. A medida que GLM y MiniMax se adentraron en aplicaciones de Agent, las débiles habilidades de agente de Doubao lo dejaron luchando. Sin embargo, el regreso de Seed-1.8 al primer nivel no fue una sorpresa — la sorpresa es la eficiencia (Fig 1)‼️ La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que lo hace extremadamente rentable — un camino que recuerda a DeepSeek. El nivel alto escala el razonamiento con presupuestos más grandes y se acerca notablemente a los mejores modelos de EE. UU. Con una fuerte visión y comprensión multimodal, además de la generación de imágenes/videos que solo está medio paso detrás — es justo llamar a Seed un "mini-Gemini." Dónde mejora 🚀 1️⃣ Razonamiento de cadena larga: Seed-1.8 mantiene el enfoque a lo largo de CoT mucho más largos, validando cuidadosamente las ramas para llegar a soluciones correctas. Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda similar a la humana. Gemini 3 Pro y GPT-5.2 aún logran puntuaciones más altas con ~60% de los tokens — una señal de una inteligencia bruta más fuerte. 2️⃣ Extracción de información: Alta precisión, pero ineficiente. Seed-1.8 tiende a reiterar y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento más bajos. Sin razonamiento habilitado, la extracción es casi inutilizable. (Gemini 3 Pro maneja la misma tarea en ~4K tokens.) 3️⃣ Programación: Históricamente un punto débil, pero en mejora. Seed-1.8 hereda ganancias del reciente modelo de Código y es utilizable para "vibe coding" de 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistema. Dónde aún falla ⚠️ 1️⃣ Coherencia en múltiples turnos: Mejor que Seed-1.6, ahora "básicamente utilizable", pero aún lucha por rastrear consistentemente los objetivos a lo largo de largas conversaciones. Después de ~10+ turnos, el razonamiento se desvía. 2️⃣ Inteligencia espacial: La formación limitada se muestra. El rendimiento en razonamiento espacial 2D/3D apenas mejora sobre el 1.6. 🧠 Conclusión final La estrategia multimodal unificada de Gemini ya ha formado un fuerte foso. La mayoría de los modelos chinos aún están atrapados en una competencia centrada en el texto. La decisión temprana de ByteDance de perseguir la multimodalidad unificada fue correcta — pero la deuda histórica pesa mucho. Seed-1.8 no es perfecto. Sin embargo, a medida que las debilidades se llenan gradualmente — RL de múltiples turnos, profundidad de codificación, expansión del conocimiento, Seed aún puede encenderse como una estrella de la próxima era, impulsada por los masivos recursos a escala de internet de ByteDance✨ 🔗 Artículo original (CN): #AI #LLM #Multimodal #Agent #ByteDance #Seed

¿Cómo será la arquitectura de LLM de próxima generación? Esta pregunta sigue generando debates, y el colaborador y desarrollador de Zhihu, Yuxuan, ofrece una comparación aguda entre DeepSeek Sparse Attention (DSA) y Native Sparse Attention (NSA), además de una mirada práctica a la implementación de operadores DSA con TileLang. 🚀 Por qué DSA > NSA (en tareas de contexto largo): A partir de experimentos que añaden DSA a modelos pequeños y comparan con NSA, DSA consistentemente rinde mejor, principalmente debido a dos decisiones de diseño clave: 1️⃣ Destilación de Attn-Score → supervisión explícita para la selección de índices 2️⃣ Escasez a nivel de token en lugar de a nivel de bloque → recuperación más precisa y detallada 🔍 1) Destilación de Attn-Score La atención escasa se basa en seleccionar los pares clave-valor correctos. DSA supervisa directamente el módulo de índice utilizando verdaderos puntajes de atención, alineando el entrenamiento con el objetivo real: "seleccionar los tokens críticos." NSA, en cambio, optimiza solo la pérdida del LM, sin proporcionar ninguna restricción explícita sobre la precisión del índice, lo que explica su rendimiento más débil en los benchmarks de recuperación de documentos largos. 🔍 2) Escasez a nivel de token vs a nivel de bloque La precisión escala con el presupuesto de cómputo: un indexado más preciso → mejor recuperación. El indexado a nivel de token (DSA) naturalmente produce una mayor fidelidad que a nivel de bloque (NSA). Desde esta perspectiva, el cuello de botella en el rendimiento de NSA es esperado: una pregunta interesante: ¿Ayudaría un tamaño de bloque=8 a que NSA se pusiera al día con DSA? ⚙️ El verdadero desafío: entrenar DSA de manera eficiente El entrenamiento de DSA implica Calentamiento → Ajuste fino escaso. El desafío: calcular y almacenar los puntajes de atención de ambas ramas. Una implementación ingenua requiere O(n²) de almacenamiento, lo que anula los ahorros de memoria de FlashAttention. Incluso el pre-filtrado (k=2048, h=512+64) aún demanda grandes búferes. 📎 Código: 🧩 Fusión de Kernels para el rescate (Fig 1) Para evitar almacenar enormes puntajes de atención intermedios, DSA utiliza kernels fusionados. Un truco clave es fusionar Index-Score + Top-k en un solo kernel: • Mantener un búfer de 2K • Calcular Index-Score para cada bloque • Ejecutar una fusión basada en orden bitónico • Mantener los puntajes top-K y sus posiciones No se requiere CUDA: implementado con el DSL de TileLang, inspirado en fla-org/native-sparse-attention. 🧾 Resumen La ventaja de DSA sobre NSA proviene de: • Destilación de Attn-Score (supervisión explícita) • Escasez a nivel de token (mayor precisión en el índice) Y con la fusión de kernels, su costoso pipeline de entrenamiento se vuelve factible en términos de memoria. 📖 Lee el artículo completo: #DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

Parte superior

Clasificación

Favoritos