🔥 A ByteDance acaba de lançar o Doubao-Seed-1.8 (modelo Agent) — e aqui está uma avaliação aprofundada do colaborador do Zhihu, toyama nao 👀 🔮 TL;DR: Uma revelação no meio do caos. Ao longo de 2025, os modelos 1.5 e 1.6 da equipe Seed mantiveram-se firmemente no topo da China e no segundo nível global. Desde o 1.5, a Seed apostou em modelagem multimodal unificada, uma aposta relativamente rara entre os modelos domésticos. Dito isso, o Seed-1.6 foi fortemente criticado: a RL em larga escala aumentou as pontuações de referência, mas a generalização no mundo real ficou atrás do Qwen3 e estava longe dos líderes globais. À medida que o GLM e o MiniMax se concentraram nas aplicações Agent, as fracas habilidades de agente do Doubao deixaram-no a lutar. No entanto, o retorno do Seed-1.8 ao primeiro nível não foi uma surpresa — a surpresa é a eficiência (Fig 1)‼️ A versão média atinge a mesma inteligência que o Seed-1.6 usando 5K tokens em vez de 15K, a um preço de entrada de ¥2, tornando-o extremamente rentável — um caminho que lembra o DeepSeek. O nível alto escala o raciocínio com orçamentos maiores e chega notavelmente perto dos melhores modelos dos EUA. Com forte visão e compreensão multimodal, além de geração de imagem/vídeo apenas meio passo atrás — é justo chamar o Seed de "mini-Gemini." Onde melhora 🚀 1️⃣ Raciocínio de cadeia longa: O Seed-1.8 mantém o foco em CoT muito mais longas, validando cuidadosamente os ramos para alcançar soluções corretas. Sua força vem mais da atenção sustentada e da busca exaustiva do que da abstração profunda semelhante à humana. O Gemini 3 Pro e o GPT-5.2 ainda alcançam pontuações mais altas com ~60% dos tokens — um sinal de inteligência bruta mais forte. 2️⃣ Extração de informações: Alta precisão, mas ineficiente. O Seed-1.8 tende a reiterar e anotar o texto completo da fonte durante o CoT. Uma simples tarefa de extração de 10K pode custar 2× tokens, e a precisão cai drasticamente com orçamentos de raciocínio mais baixos. Sem raciocínio ativado, a extração é quase inutilizável. (O Gemini 3 Pro lida com a mesma tarefa em ~4K tokens.) 3️⃣ Codificação: Historicamente um ponto fraco, mas em melhoria. O Seed-1.8 herda ganhos do recente modelo de Código e é utilizável para codificação "vibe" de 0→1. Ainda está longe dos modelos de engenharia de topo — especialmente em pensamento a nível de sistema. Onde ainda falha ⚠️ 1️⃣ Coerência em múltiplas interações: Melhor do que o Seed-1.6, agora "basicamente utilizável", mas ainda luta para acompanhar consistentemente os objetivos em conversas longas. Após ~10+ turnos, o raciocínio se desvia. 2️⃣ Inteligência espacial: O treinamento limitado se mostra. O desempenho em raciocínio espacial 2D/3D mal melhora em relação ao 1.6. 🧠 Considerações finais A estratégia multimodal unificada do Gemini já formou um forte fosso. A maioria dos modelos chineses ainda está presa em uma competição centrada em texto. A decisão precoce da ByteDance de buscar a multimodalidade unificada foi correta — mas a dívida histórica pesa muito....