Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Zhihu Frontier

🚀Llevando las tendencias, voces y perspectivas de IA y tecnología en China al escenario global. ⚡️Impulsado por Zhihu, la principal plataforma de conocimiento de China.

🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agente) — y aquí tienes una evaluación en profundidad del colaborador de Zhihu toyama nao 👀 🔮 Resumen; DR: Una revelación en medio del caos. Durante 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la élite china y en la segunda categoría global. Desde la versión 1.5, Seed ha redoblado la apuesta por el modelado multimodal unificado, una apuesta relativamente rara entre los modelos nacionales. Dicho esto, Seed-1.6 fue duramente criticado: el RL a gran escala impulsó las puntuaciones de benchmark, pero la generalización en el mundo real quedó por detrás de Qwen3 y estuvo lejos de ser líder global. A medida que GLM y MiniMax se inclinaban hacia las aplicaciones de Agente, las débiles habilidades de Doubao le dejaban con dificultades. Sin embargo, el regreso de la Seed-1.8 al primer nivel no fue una sorpresa — ¡la sorpresa es la eficiencia (Fig. 1)! !️ La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que la hace extremadamente rentable — un camino que recuerda a DeepSeek. El segmento alto escala con presupuestos más altos y se acerca notablemente a los mejores modelos estadounidenses. Con una visión fuerte y un entendimiento multimodal, además de la generación de imágenes/vídeos apenas medio paso por detrás — es justo llamar a Seed un "mini-Géminis". Donde mejora 🚀 1️⃣ Razonamiento de cadena larga: Seed-1.8 mantiene el enfoque a lo largo de mucho más tiempo en CoT, validando cuidadosamente las ramas para alcanzar las soluciones correctas. Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda y humana. Gemini 3 Pro y GPT-5.2 siguen logrando puntuaciones más altas con un ~60% de los tokens, lo que indica una inteligencia bruta más fuerte. 2️⃣ Extracción de información: Alta precisión, pero ineficiente. Seed-1.8 tiende a reformular y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento bajos. Sin la razón activada, la extracción es casi inutilizable. (Gemini 3 Pro realiza la misma tarea en ~4K tokens.) 3️⃣ Codificación: Históricamente es un punto débil, pero está mejorando. Seed-1.8 hereda las ganancias del modelo Code reciente y es utilizable para el "vibe code" 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistemas. Donde aún no queda ⚠️ 1️⃣ Coherencia en varios giros: Mejor que Seed-1.6, ahora "básicamente utilizable", pero sigue teniendo dificultades para seguir objetivos de forma consistente en largas conversaciones. Después de ~10+ turnos, la razón se desvía. 2️⃣ Inteligencia espacial: Programas de entrenamiento limitados. El rendimiento en razonamiento espacial 2D/3D apenas mejora respecto a la versión 1.6. 🧠 Toma final La estrategia multimodal unificada de Géminis ya ha formado un fuerte foso. La mayoría de los modelos chinos siguen atrapados en una competencia centrada en el texto. La decisión inicial de ByteDance de buscar la multimodalidad unificada fue acertada, pero la deuda histórica pesa mucho. La semilla-1.8 no es perfecta. Sin embargo, a medida que se van cubriendo las debilidades —RL de varios turnos, profundidad de programación, expansión del conocimiento—, Seed aún podría brillar como una estrella de la próxima era, impulsada por los enormes recursos✨ a escala de internet de ByteDance 🔗 Artículo original (CN): #AI #LLM #Multimodal #Agent #ByteDance #Seed

¿Cómo será la arquitectura de LLM de próxima generación? Esta pregunta sigue generando debates — y Yuxuan, colaborador y desarrollador de Zhihu, ofrece una comparación precisa entre DeepSeek Sparse Attention (DSA) y Native Sparse Attention (NSA), además de una visión práctica sobre cómo implementar operadores de DSA con TileLang. 🚀 Por qué la DSA > NSA (en tareas de largo contexto): Desde experimentos que añadieron DSA a modelos pequeños y comparándolos con NSA, DSA rinde consistentemente mejor — principalmente debido a dos decisiones clave de diseño: 1️⃣ La destilación Attn-Score → supervisión explícita para la selección de índices 2️⃣ Esparsidad a nivel de token en lugar de a nivel de bloque→ recuperación más fina y precisa 🔍 1) Destilación de Attn-Score La poca atención depende de seleccionar los pares clave-valor adecuados. DSA supervisa directamente el módulo índice utilizando puntuaciones de atención reales, alineando la formación con el objetivo real: "elegir los tokens críticos." La NSA optimiza en cambio solo la pérdida de LM, sin proporcionar ninguna restricción explícita en la precisión del índice — lo que explica su menor rendimiento en benchmarks de recuperación de documentos largos. 🔍 2) Escasidez a nivel de ficha frente a bloque La precisión escala con el presupuesto de cálculo: una indexación más precisa → mejor recuperación. La indexación a nivel de token (DSA) naturalmente proporciona una mayor fidelidad que la a nivel de bloque (NSA). Desde esta perspectiva, se espera el cuello de botella de rendimiento de la NSA — una pregunta interesante: ¿Ayudaría el tamaño del bloque = 8 a la NSA a alcanzar la DSA? ⚙️ El verdadero reto: entrenar a la DSA de forma eficiente El entrenamiento DSA incluye Warmup → Sparse Finetune. El reto: calcular y almacenar las puntuaciones de atención de ambas ramas. Una implementación ingenua requiere almacenamiento O(n²), lo que anula el ahorro de memoria de FlashAttention. Incluso el prefiltrado (k=2048, h=512+64) sigue exigiendo grandes búferes. 📎 Código: 🧩 Fusión de núcleos al rescate (Fig. 1) Para evitar almacenar enormes puntuaciones intermedias de Attn, DSA utiliza núcleos fusionados. Un truco clave es fusionar Index-Score + Top-k en un mismo núcleo: • Mantener un buffer de 2K • Calcular la puntuación índice para cada bloque • Ejecutar una fusión basada en ordenación bitónica • Mantener las puntuaciones de los primeros de K y sus posiciones No se requiere CUDA — implementado con DSL TileLang, inspirado en fla-org/native-sparse-attention. 🧾 Resumen La ventaja de la DSA sobre la NSA proviene de: • Destilación Attn-Score (supervisión explícita) • Esparsidad a nivel de token (mayor precisión en el índice) Y con la fusión de núcleos, su costosa pipeline de entrenamiento se vuelve factible en memoria. 📖 Lee el artículo completo: #DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

Populares

Ranking

Favoritas