🔥 ByteDance właśnie wydał Doubao-Seed-1.8 (model Agent) — oto szczegółowa ocena od współpracownika Zhihu, toyama nao 👀 🔮 TL;DR: Otwierające oczy w środku chaosu. W ciągu 2025 roku modele 1.5 i 1.6 zespołu Seed utrzymywały się w czołówce Chin i w drugiej lidze globalnej. Od wersji 1.5, Seed postawił na zjednoczone modelowanie multimodalne, co jest stosunkowo rzadkim zakładem wśród krajowych modeli. Jednakże, Seed-1.6 był mocno krytykowany: duża skala RL zwiększyła wyniki benchmarków, ale generalizacja w rzeczywistym świecie pozostawała w tyle za Qwen3 i była daleka od globalnych liderów. Gdy GLM i MiniMax skupiły się na zastosowaniach Agent, słabe zdolności agenta Doubao sprawiły, że miał trudności. Jednak powrót Seed-1.8 do pierwszej ligi nie był zaskoczeniem — zaskoczeniem jest efektywność (Rys. 1)‼️ Wersja średnia osiąga tę samą inteligencję co Seed-1.6 używając 5K tokenów zamiast 15K, przy cenie wejściowej ¥2, co czyni ją niezwykle opłacalną — ścieżka przypominająca DeepSeek. Wysoka liga zwiększa rozumowanie przy większych budżetach i zbliża się do najlepszych modeli z USA. Z silnym zrozumieniem wizji i multimodalnym, plus generowaniem obrazów/wideo tylko o krok w tyle — można sprawiedliwie nazwać Seed "mini-Gemini." Gdzie się poprawia 🚀 1️⃣ Rozumowanie długich łańcuchów: Seed-1.8 utrzymuje koncentrację przez znacznie dłuższe CoT, starannie weryfikując gałęzie, aby osiągnąć poprawne rozwiązania. Jego siła pochodzi bardziej z utrzymanej uwagi i wyczerpującego przeszukiwania niż głębokiej abstrakcji przypominającej ludzką. Gemini 3 Pro i GPT-5.2 nadal osiągają wyższe wyniki przy ~60% tokenów — znak silniejszej surowej inteligencji. 2️⃣ Ekstrakcja informacji: Wysoka dokładność, ale nieefektywna. Seed-1.8 ma tendencję do powtarzania i adnotowania pełnego tekstu źródłowego podczas CoT. Proste zadanie ekstrakcji 10K może kosztować 2× tokeny, a dokładność gwałtownie spada przy niższych budżetach rozumowania. Bez włączonego rozumowania, ekstrakcja jest prawie nieużyteczna. (Gemini 3 Pro radzi sobie z tym samym zadaniem w ~4K tokenów.) 3️⃣ Kodowanie: Historycznie słaby punkt, ale poprawia się. Seed-1.8 dziedziczy zyski z ostatniego modelu kodu i jest użyteczny do kodowania "vibe" 0→1. Nadal daleko mu do modeli inżynieryjnych z najwyższej półki — szczególnie w myśleniu na poziomie systemowym. Gdzie nadal ma braki ⚠️ 1️⃣ Koherencja wieloobrotowa: Lepsza niż Seed-1.6, teraz "praktycznie użyteczna", ale nadal ma trudności z konsekwentnym śledzeniem celów w długich rozmowach. Po ~10+ obrotach, rozumowanie dryfuje. 2️⃣ Inteligencja przestrzenna: Ograniczone szkolenie pokazuje. Wydajność w rozumowaniu przestrzennym 2D/3D ledwo poprawia się w porównaniu do 1.6. 🧠 Ostateczna ocena Zjednoczona strategia multimodalna Gemini już stworzyła silną zaporę. Większość chińskich modeli nadal tkwi w rywalizacji skoncentrowanej na tekście. Wczesna decyzja ByteDance o dążeniu do zjednoczonej multimodalności była słuszna — ale historyczny dług jest ciężki....