🔥 A ByteDance acabou de lançar o Doubao-Seed-1.8 (modelo Agente) — e aqui está uma avaliação detalhada do colaborador da Zhihu toyama nao 👀 🔮 Resumo; DR: Uma abertura de olhos no meio do caos. Ao longo de 2025, os modelos 1.5 e 1.6 da equipe Seed permaneceram firmemente no topo da China e no segundo escalão global. Desde a versão 1.5, a Seed reforçou a modelagem multimodal unificada, uma aposta relativamente rara entre modelos domésticos. Dito isso, a Semente-1.6 foi fortemente criticada: o RL em grande escala impulsionou as pontuações de benchmark, mas a generalização do mundo real ficou atrás do Qwen3 e estava longe de ser líder global. À medida que GLM e MiniMax se dedicavam às aplicações de Agente, as habilidades fracas de Doubao deixaram o Doubao com dificuldades. No entanto, o retorno da Semente-1.8 ao primeiro escalão não foi surpresa — a surpresa é a eficiência (Fig. 1)! !️ A versão média atinge a mesma inteligência da Seed-1.6 usando 5K tokens em vez de 15K, a um preço de entrada de ¥2, tornando-a extremamente econômica — um caminho que lembra o DeepSeek. O segmento de alto nível escala com orçamentos maiores e chega notavelmente perto dos melhores modelos americanos. Com visão forte e compreensão multimodal, além da geração de imagens/vídeos apenas meio passo atrás — é justo chamar o Seed de um "mini-Gemini". Onde melhora 🚀 1️⃣ Raciocínio de cadeia longa: Seed-1.8 mantém o foco em CoT muito mais longo, validando cuidadosamente os ramos para alcançar as soluções corretas. Sua força vem mais da atenção sustentada e da busca exaustiva do que da abstração profunda e semelhante à humana. Gemini 3 Pro e GPT-5.2 ainda alcançam pontuações mais altas com ~60% dos tokens — um sinal de inteligência bruta mais forte. 2️⃣ Extração de informação: Alta precisão, mas ineficiente. Seed-1.8 tende a reformular e anotar o texto fonte completo durante o CoT. Uma tarefa simples de extração de 10K pode custar 2× tokens, e a precisão cai drasticamente com orçamentos de raciocínio mais baixos. Sem o raciocínio ativado, a extração é quase inutilizável. (Gemini 3 Pro faz a mesma tarefa em ~4K tokens.) 3️⃣ Programação: Historicamente um ponto fraco, mas está melhorando. Seed-1.8 herda ganhos do modelo Code recente e é utilizável para codificação 0→1 "vibe". Ainda está longe de modelos de engenharia de alto nível — especialmente no pensamento em nível de sistema. Onde ainda não funciona ⚠️ 1️⃣ Coerência em múltiplas voltas: Melhor que o Seed-1.6, agora "basicamente utilizável", mas ainda tem dificuldade em acompanhar metas de forma consistente em longas conversas. Após ~10+ turnos, o raciocínio se desvia. 2️⃣ Inteligência espacial: Treinamentos limitados. O desempenho em raciocínio espacial 2D/3D mal melhora em relação ao 1.6. 🧠 Tomada final A estratégia multimodal unificada da Gemini já formou um forte fosso. A maioria dos modelos chineses ainda está presa em competição centrada em texto. A decisão inicial da ByteDance de buscar a multimodalidade unificada estava certa — mas a dívida histórica pesa muito....