🔥 ByteDance har nettopp sluppet Doubao-Seed-1.8 (agentmodell) — og her er en grundig evaluering fra Zhihu-bidragsyter toyama nao 👀 🔮 TL; DR: En øyeåpner midt i kaoset. Gjennom hele 2025 holdt Seed-teamets 1,5- og 1,6-modeller seg solid i Kinas toppsjikter og den globale nest øverste divisjonen. Siden 1.5 har Seed doblet innsatsen på enhetlig multimodal modellering, et relativt sjeldent valg blant innenlandske modeller. Når det er sagt, ble Seed-1.6 sterkt kritisert: storskala RL økte benchmark-scorene, men reell generalisering lå bak Qwen3 og var langt fra globale ledere. Etter hvert som GLM og MiniMax satset på agentapplikasjoner, gjorde Doubaos svake agentferdigheter at det slet med det. Men Seed-1.8s retur til første nivå var ingen overraskelse — overraskelsen er effektiviteten (Fig 1)! !️ Medium-versjonen når samme intelligens som Seed-1.6 ved å bruke 5K-tokens i stedet for 15K, til en inngangspris på ¥2, noe som gjør den ekstremt kostnadseffektiv — en vei som minner om DeepSeek. Det høye nivået skalerer med større budsjetter og kommer merkbart nær toppmodellene i USA. Med sterk visjon og multimodal forståelse, pluss bilde-/videogenerering bare et halvt steg bak — er det rettferdig å kalle Seed en «mini-Tvilling». Hvor det forbedres 🚀 1️⃣ Langkjede-resonnement: Seed-1.8 opprettholder fokus over mye lengre CoT, og validerer nøye grener for å finne riktige løsninger. Styrken kommer mer fra vedvarende oppmerksomhet og grundig søken enn dyp menneskelignende abstraksjon. Gemini 3 Pro og GPT-5.2 oppnår fortsatt høyere poengsummer med ~60 % av tokenene — et tegn på sterkere rå intelligens. 2️⃣ Informasjonsuttrekking: Høy presisjon, men ineffektiv. Seed-1.8 har en tendens til å omformulere og kommentere full kildetekst under CoT. En enkel 10K-ekstraksjonsoppgave kan koste 2× tokens, og nøyaktigheten faller kraftig ved lavere resonneringsbudsjetter. Uten resonnement aktivert er ekstraksjon nesten ubrukelig. (Gemini 3 Pro håndterer samme oppgave i ~4K-tokens.) 3️⃣ Koding: Historisk sett et svakt punkt, men det blir bedre. Seed-1.8 arver gevinster fra den nylige Code-modellen og kan brukes for 0→1 "vibe-koding". Fortsatt langt fra topp ingeniørmodeller – spesielt når det gjelder systemnivå-tenkning. Der det fortsatt ikke når opp ⚠️ 1️⃣ Fler-omgangs koherens: Bedre enn Seed-1.6, nå «i praksis brukbar», men sliter fortsatt med å spore mål konsekvent gjennom lange samtaler. Etter ~10+ runder driver resonneringen. 2️⃣ Romlig intelligens: Begrenset trening show. Ytelsen på 2D/3D romlig resonnering forbedres knapt over 1,6. 🧠 Siste opptak Geminis samlede multimodale strategi har allerede dannet en sterk vollgrav. De fleste kinesiske modeller er fortsatt låst i tekstbasert konkurranse. ByteDances tidlige beslutning om å satse på enhetlig multimodalitet var riktig — men historisk gjeld veier tungt....