Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance hat gerade Doubao-Seed-1.8 (Agent-Modell) veröffentlicht – und hier ist eine eingehende Bewertung von Zhihu-Beitragender toyama nao 👀
🔮 TL;DR: Eine Augenöffnung mitten im Chaos.
Im Jahr 2025 blieben die Modelle 1.5 und 1.6 des Seed-Teams fest in Chinas oberster Liga und der globalen zweiten Liga. Seit 1.5 hat Seed auf ein einheitliches multimodales Modell gesetzt, eine relativ seltene Wette unter inländischen Modellen.
Das gesagt, wurde Seed-1.6 stark kritisiert: Großangelegte RL steigerten die Benchmark-Werte, aber die allgemeine Anwendbarkeit in der realen Welt blieb hinter Qwen3 zurück und war weit von den globalen Spitzenreitern entfernt. Während GLM und MiniMax sich auf Agentenanwendungen konzentrierten, ließ es Doubaos schwache Agentenfähigkeiten kämpfen.
Dennoch war die Rückkehr von Seed-1.8 in die erste Liga keine Überraschung – die Überraschung ist die Effizienz (Abb. 1)‼️
Die mittlere Version erreicht die gleiche Intelligenz wie Seed-1.6 mit 5K Tokens anstelle von 15K, zu einem Einstiegspreis von ¥2, was es extrem kosteneffektiv macht – ein Weg, der an DeepSeek erinnert.
Die hohe Stufe skaliert das Denken mit größeren Budgets und kommt bemerkenswert nahe an die besten US-Modelle. Mit starkem visuellem und multimodalem Verständnis, plus Bild-/Videoerzeugung, die nur einen halben Schritt hinterherhinkt – es ist fair, Seed als "mini-Gemini" zu bezeichnen.
Wo es sich verbessert 🚀
1️⃣ Langkettiges Denken:
Seed-1.8 behält den Fokus über viel längere CoT bei und validiert sorgfältig Zweige, um die richtigen Lösungen zu erreichen.
Seine Stärke kommt mehr von nachhaltiger Aufmerksamkeit und erschöpfender Suche als von tiefem, menschenähnlichem Abstraktionsvermögen. Gemini 3 Pro und GPT-5.2 erzielen immer noch höhere Werte mit ~60% der Tokens – ein Zeichen für stärkere rohe Intelligenz.
2️⃣ Informationsbeschaffung:
Hohe Genauigkeit, aber ineffizient. Seed-1.8 neigt dazu, den gesamten Quelltext während CoT neu zu formulieren und zu annotieren. Eine einfache 10K-Beschaffungsaufgabe kann 2× Tokens kosten, und die Genauigkeit sinkt stark bei niedrigeren Denkbudgets. Ohne aktiviertes Denken ist die Beschaffung fast unbrauchbar. (Gemini 3 Pro bewältigt dieselbe Aufgabe in ~4K Tokens.)
3️⃣ Programmierung:
Historisch ein Schwachpunkt, aber verbessert sich. Seed-1.8 erbt Gewinne aus dem aktuellen Code-Modell und ist für 0→1 "Vibe-Coding" nutzbar. Immer noch weit entfernt von erstklassigen Ingenieurmodellen – insbesondere im systematischen Denken.
Wo es immer noch hinterherhinkt ⚠️
1️⃣ Mehrturn-Kohärenz:
Besser als Seed-1.6, jetzt "grundsätzlich nutzbar", hat aber immer noch Schwierigkeiten, Ziele über lange Gespräche hinweg konsistent zu verfolgen. Nach ~10+ Runden driftet das Denken.
2️⃣ Räumliche Intelligenz:
Begrenztes Training zeigt sich. Die Leistung bei 2D/3D räumlichem Denken verbessert sich kaum gegenüber 1.6.
🧠 Fazit
Geminis einheitliche multimodale Strategie hat bereits einen starken Schutzwall gebildet. Die meisten chinesischen Modelle sind immer noch im textzentrierten Wettbewerb gefangen. ByteDances frühe Entscheidung, einheitliche Multimodalität zu verfolgen, war richtig – aber historische Schulden lasten schwer....

Top
Ranking
Favoriten
