Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 A ByteDance acaba de lançar o Doubao-Seed-1.8 (modelo Agent) — e aqui está uma avaliação aprofundada do colaborador do Zhihu, toyama nao 👀
🔮 TL;DR: Uma revelação no meio do caos.
Ao longo de 2025, os modelos 1.5 e 1.6 da equipe Seed mantiveram-se firmemente no topo da China e no segundo nível global. Desde o 1.5, a Seed apostou em modelagem multimodal unificada, uma aposta relativamente rara entre os modelos domésticos.
Dito isso, o Seed-1.6 foi fortemente criticado: a RL em larga escala aumentou as pontuações de referência, mas a generalização no mundo real ficou atrás do Qwen3 e estava longe dos líderes globais. À medida que o GLM e o MiniMax se concentraram nas aplicações Agent, as fracas habilidades de agente do Doubao deixaram-no a lutar.
No entanto, o retorno do Seed-1.8 ao primeiro nível não foi uma surpresa — a surpresa é a eficiência (Fig 1)‼️
A versão média atinge a mesma inteligência que o Seed-1.6 usando 5K tokens em vez de 15K, a um preço de entrada de ¥2, tornando-o extremamente rentável — um caminho que lembra o DeepSeek.
O nível alto escala o raciocínio com orçamentos maiores e chega notavelmente perto dos melhores modelos dos EUA. Com forte visão e compreensão multimodal, além de geração de imagem/vídeo apenas meio passo atrás — é justo chamar o Seed de "mini-Gemini."
Onde melhora 🚀
1️⃣ Raciocínio de cadeia longa:
O Seed-1.8 mantém o foco em CoT muito mais longas, validando cuidadosamente os ramos para alcançar soluções corretas.
Sua força vem mais da atenção sustentada e da busca exaustiva do que da abstração profunda semelhante à humana. O Gemini 3 Pro e o GPT-5.2 ainda alcançam pontuações mais altas com ~60% dos tokens — um sinal de inteligência bruta mais forte.
2️⃣ Extração de informações:
Alta precisão, mas ineficiente. O Seed-1.8 tende a reiterar e anotar o texto completo da fonte durante o CoT. Uma simples tarefa de extração de 10K pode custar 2× tokens, e a precisão cai drasticamente com orçamentos de raciocínio mais baixos. Sem raciocínio ativado, a extração é quase inutilizável. (O Gemini 3 Pro lida com a mesma tarefa em ~4K tokens.)
3️⃣ Codificação:
Historicamente um ponto fraco, mas em melhoria. O Seed-1.8 herda ganhos do recente modelo de Código e é utilizável para codificação "vibe" de 0→1. Ainda está longe dos modelos de engenharia de topo — especialmente em pensamento a nível de sistema.
Onde ainda falha ⚠️
1️⃣ Coerência em múltiplas interações:
Melhor do que o Seed-1.6, agora "basicamente utilizável", mas ainda luta para acompanhar consistentemente os objetivos em conversas longas. Após ~10+ turnos, o raciocínio se desvia.
2️⃣ Inteligência espacial:
O treinamento limitado se mostra. O desempenho em raciocínio espacial 2D/3D mal melhora em relação ao 1.6.
🧠 Considerações finais
A estratégia multimodal unificada do Gemini já formou um forte fosso. A maioria dos modelos chineses ainda está presa em uma competição centrada em texto. A decisão precoce da ByteDance de buscar a multimodalidade unificada foi correta — mas a dívida histórica pesa muito....

Top
Classificação
Favoritos
