🔥 ByteDance vient de lancer Doubao-Seed-1.8 (modèle Agent) — et voici une évaluation approfondie du contributeur Zhihu toyama nao 👀 🔮 TL;DR : Une révélation au milieu du chaos. Tout au long de 2025, les modèles 1.5 et 1.6 de l'équipe Seed sont restés fermement dans le haut du classement en Chine et dans le deuxième niveau mondial. Depuis 1.5, Seed a misé sur la modélisation multimodale unifiée, un pari relativement rare parmi les modèles nationaux. Cela dit, Seed-1.6 a été fortement critiqué : le RL à grande échelle a boosté les scores de référence, mais la généralisation dans le monde réel a pris du retard par rapport à Qwen3 et était loin des leaders mondiaux. Alors que GLM et MiniMax se concentraient sur les applications Agent, les faibles capacités d'agent de Doubao l'ont laissé en difficulté. Cependant, le retour de Seed-1.8 dans le premier niveau n'était pas une surprise — la surprise est l'efficacité (Fig 1)‼️ La version moyenne atteint la même intelligence que Seed-1.6 en utilisant 5K tokens au lieu de 15K, à un prix d'entrée de ¥2, ce qui la rend extrêmement rentable — un chemin rappelant DeepSeek. Le niveau supérieur augmente le raisonnement avec des budgets plus importants et se rapproche notablement des meilleurs modèles américains. Avec une forte vision et une compréhension multimodale, plus une génération d'images/vidéos à peine en retard — il est juste de qualifier Seed de "mini-Gemini." Où il s'améliore 🚀 1️⃣ Raisonnement en chaîne longue : Seed-1.8 maintient son attention sur des CoT beaucoup plus longs, validant soigneusement les branches pour atteindre des solutions correctes. Sa force provient davantage d'une attention soutenue et d'une recherche exhaustive que d'une abstraction humaine profonde. Gemini 3 Pro et GPT-5.2 obtiennent toujours des scores plus élevés avec ~60% des tokens — un signe d'une intelligence brute plus forte. 2️⃣ Extraction d'informations : Haute précision, mais inefficace. Seed-1.8 a tendance à reformuler et annoter le texte source complet pendant le CoT. Une simple tâche d'extraction de 10K peut coûter 2× tokens, et la précision chute fortement avec des budgets de raisonnement plus bas. Sans raisonnement activé, l'extraction est presque inutilisable. (Gemini 3 Pro gère la même tâche en ~4K tokens.) 3️⃣ Codage : Historiquement un point faible, mais en amélioration. Seed-1.8 hérite des gains du récent modèle Code et est utilisable pour le "vibe coding" 0→1. Encore loin des modèles d'ingénierie de premier plan — surtout en pensée au niveau système. Où il reste encore des lacunes ⚠️ 1️⃣ Cohérence multi-tour : Meilleur que Seed-1.6, maintenant "basiquement utilisable", mais peine encore à suivre les objectifs de manière cohérente au cours de longues conversations. Après ~10+ tours, le raisonnement dérive. 2️⃣ Intelligence spatiale : Un entraînement limité se fait sentir. La performance sur le raisonnement spatial 2D/3D s'améliore à peine par rapport à 1.6. 🧠 Conclusion finale La stratégie multimodale unifiée de Gemini a déjà formé un fort avantage concurrentiel. La plupart des modèles chinois sont encore enfermés dans une compétition centrée sur le texte. La décision précoce de ByteDance de poursuivre la multimodalité unifiée était juste — mais la dette historique pèse lourd....