Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agent) — y aquí hay una evaluación en profundidad del colaborador de Zhihu toyama nao 👀
🔮 Resumen: Una revelación en medio del caos.
A lo largo de 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la cima de China y en el segundo nivel global. Desde el 1.5, Seed ha apostado fuertemente por la modelización multimodal unificada, una apuesta relativamente rara entre los modelos nacionales.
Dicho esto, Seed-1.6 fue muy criticado: la RL a gran escala mejoró las puntuaciones de referencia, pero la generalización en el mundo real se quedó atrás de Qwen3 y estaba lejos de los líderes globales. A medida que GLM y MiniMax se adentraron en aplicaciones de Agent, las débiles habilidades de agente de Doubao lo dejaron luchando.
Sin embargo, el regreso de Seed-1.8 al primer nivel no fue una sorpresa — la sorpresa es la eficiencia (Fig 1)‼️
La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que lo hace extremadamente rentable — un camino que recuerda a DeepSeek.
El nivel alto escala el razonamiento con presupuestos más grandes y se acerca notablemente a los mejores modelos de EE. UU. Con una fuerte visión y comprensión multimodal, además de la generación de imágenes/videos que solo está medio paso detrás — es justo llamar a Seed un "mini-Gemini."
Dónde mejora 🚀
1️⃣ Razonamiento de cadena larga:
Seed-1.8 mantiene el enfoque a lo largo de CoT mucho más largos, validando cuidadosamente las ramas para llegar a soluciones correctas.
Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda similar a la humana. Gemini 3 Pro y GPT-5.2 aún logran puntuaciones más altas con ~60% de los tokens — una señal de una inteligencia bruta más fuerte.
2️⃣ Extracción de información:
Alta precisión, pero ineficiente. Seed-1.8 tiende a reiterar y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento más bajos. Sin razonamiento habilitado, la extracción es casi inutilizable. (Gemini 3 Pro maneja la misma tarea en ~4K tokens.)
3️⃣ Programación:
Históricamente un punto débil, pero en mejora. Seed-1.8 hereda ganancias del reciente modelo de Código y es utilizable para "vibe coding" de 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistema.
Dónde aún falla ⚠️
1️⃣ Coherencia en múltiples turnos:
Mejor que Seed-1.6, ahora "básicamente utilizable", pero aún lucha por rastrear consistentemente los objetivos a lo largo de largas conversaciones. Después de ~10+ turnos, el razonamiento se desvía.
2️⃣ Inteligencia espacial:
La formación limitada se muestra. El rendimiento en razonamiento espacial 2D/3D apenas mejora sobre el 1.6.
🧠 Conclusión final
La estrategia multimodal unificada de Gemini ya ha formado un fuerte foso. La mayoría de los modelos chinos aún están atrapados en una competencia centrada en el texto. La decisión temprana de ByteDance de perseguir la multimodalidad unificada fue correcta — pero la deuda histórica pesa mucho....

Parte superior
Clasificación
Favoritos
