🔥 ByteDance tocmai a lansat Doubao-Seed-1.8 (model Agent) — iar iată o evaluare detaliată de la colaboratorul Zhihu, toyama nao 👀 🔮 Pe scurt; DR: O deschidere a ochilor în mijlocul haosului. Pe tot parcursul anului 2025, modelele 1.5 și 1.6 ale echipei Seed au rămas ferm în topul Chinei și în al doilea eșalon global. De la 1.5, Seed a dublat miza pe modelarea multimodală unificată, un pariu relativ rar printre modelele interne. Totuși, Seed-1.6 a fost puternic criticat: RL-ul la scară largă a crescut scorurile de benchmark, dar generalizarea din lumea reală a rămas în urmă față de Qwen3 și era departe de a fi lider global. Pe măsură ce GLM și MiniMax s-au orientat spre aplicațiile Agentului, abilitățile slabe ale lui Doubao au făcut ca agentul să aibă dificultăți. Totuși, revenirea lui Seed-1.8 în primul eșalon nu a fost o surpriză — surpriza este eficiența (Fig 1)! !️ Versiunea medie atinge aceeași inteligență ca Seed-1.6 folosind tokenuri de 5K în loc de 15K, la un preț de intrare de ¥2, ceea ce o face extrem de rentabilă — o cale care amintește de DeepSeek. Modelul de nivel înalt se scalează cu bugete mai mari și se apropie notabil de cele mai bune modele americane. Cu o viziune puternică și o înțelegere multimodală, plus generarea de imagini/video la doar jumătate de pas în urmă — este corect să numim Seed un "mini-Gemini". Unde se îmbunătățește 🚀 1️⃣ Raționamentul pe lanț lung: Seed-1.8 menține focalizarea pe mult mai lungi CoT, validând cu atenție ramurile pentru a ajunge la soluțiile corecte. Puterea sa vine mai mult din atenția susținută și căutarea exhaustivă decât din abstracția profundă, asemănătoare umană. Gemini 3 Pro și GPT-5.2 obțin în continuare scoruri mai mari cu ~60% din tokenuri — un semn al unei inteligențe brute mai puternice. 2️⃣ Extracția informației: Acuratețe ridicată, dar ineficientă. Seed-1.8 tinde să reformuleze și să adnoteze textul sursă complet în timpul CoT. O sarcină simplă de extragere de 10K poate costa 2× tokens, iar acuratețea scade brusc la bugete de raționament mai mici. Fără raționamentul activat, extragerea este aproape inutilizabilă. (Gemini 3 Pro gestionează aceeași sarcină în ~4K tokenuri.) 3️⃣ Codificare: Istoric a fost un punct slab, dar în continuare. Seed-1.8 moștenește câștiguri din modelul recent Code și este utilizabil pentru "vibe code" 0→1. Încă departe de modele inginerești de top — mai ales în gândirea la nivel de sistem. Unde încă nu ⚠️ reușește 1️⃣ Coerența pe mai multe ture: Mai bun decât Seed-1.6, acum "practic utilizabil", dar încă are dificultăți în a urmări constant obiectivele în conversații lungi. După ~10+ ture, raționamentul se schimbă. 2️⃣ Inteligență spațială: Show-uri de antrenament limitate. Performanța pe raționamentul spațial 2D/3D abia se îmbunătățește față de 1.6. 🧠 Ultima luare Strategia multimodală unificată a Gemini a format deja un șanț puternic. Majoritatea modelelor chinezești sunt încă blocate într-o competiție centrată pe text. Decizia timpurie a ByteDance de a urma multimodalitatea unificată a fost corectă — dar datoria istorică cântărește greu....