🔥 ByteDance vừa phát hành Doubao-Seed-1.8 (mô hình Agent) — và đây là một đánh giá sâu sắc từ người đóng góp Zhihu toyama nao 👀 🔮 TL;DR: Một cái nhìn mở mang giữa sự hỗn loạn. Trong suốt năm 2025, các mô hình 1.5 và 1.6 của đội Seed đã giữ vững vị trí trong top đầu của Trung Quốc và hạng nhì toàn cầu. Kể từ 1.5, Seed đã tăng cường mô hình đa phương thức thống nhất, một cược tương đối hiếm trong số các mô hình nội địa. Tuy nhiên, Seed-1.6 đã bị chỉ trích nặng nề: RL quy mô lớn đã nâng cao điểm chuẩn, nhưng khả năng tổng quát trong thế giới thực lại chậm hơn Qwen3 và còn xa mới đạt được các nhà lãnh đạo toàn cầu. Khi GLM và MiniMax tập trung vào các ứng dụng Agent, khả năng yếu kém của Doubao đã khiến nó gặp khó khăn. Tuy nhiên, sự trở lại của Seed-1.8 vào hạng nhất không phải là một bất ngờ — điều bất ngờ là hiệu quả (Hình 1)‼️ Phiên bản trung bình đạt được cùng một trí tuệ như Seed-1.6 chỉ với 5K token thay vì 15K, với mức giá vào cửa là ¥2, khiến nó cực kỳ hiệu quả về chi phí — một con đường gợi nhớ đến DeepSeek. Hạng cao mở rộng khả năng suy luận với ngân sách lớn hơn và gần như đạt được gần với các mô hình hàng đầu của Mỹ. Với khả năng thị giác mạnh mẽ & hiểu biết đa phương thức, cộng với khả năng tạo hình ảnh/video chỉ kém một bước — thật công bằng khi gọi Seed là "mini-Gemini." Nơi nó cải thiện 🚀 1️⃣ Suy luận chuỗi dài: Seed-1.8 duy trì sự tập trung qua CoT dài hơn nhiều, cẩn thận xác thực các nhánh để đạt được các giải pháp đúng. Sức mạnh của nó đến từ sự chú ý liên tục và tìm kiếm toàn diện hơn là trừu tượng giống như con người. Gemini 3 Pro và GPT-5.2 vẫn đạt được điểm số cao hơn với ~60% số token — một dấu hiệu của trí thông minh thô mạnh mẽ hơn. 2️⃣ Trích xuất thông tin: Độ chính xác cao, nhưng không hiệu quả. Seed-1.8 có xu hướng lặp lại và chú thích toàn bộ văn bản nguồn trong quá trình CoT. Một nhiệm vụ trích xuất đơn giản 10K có thể tốn 2× token, và độ chính xác giảm mạnh ở ngân sách suy luận thấp hơn. Nếu không có suy luận, việc trích xuất gần như không thể sử dụng được. (Gemini 3 Pro xử lý cùng một nhiệm vụ trong ~4K token.) 3️⃣ Lập trình: Là một điểm yếu trong lịch sử, nhưng đang cải thiện. Seed-1.8 thừa hưởng những lợi ích từ mô hình Code gần đây và có thể sử dụng cho lập trình "vibe" từ 0→1. Vẫn còn xa mới đạt được các mô hình kỹ thuật hàng đầu — đặc biệt là trong tư duy cấp hệ thống. Nơi nó vẫn còn thiếu sót ⚠️ 1️⃣ Tính nhất quán đa lượt: Tốt hơn Seed-1.6, giờ "cơ bản có thể sử dụng", nhưng vẫn gặp khó khăn trong việc theo dõi mục tiêu một cách nhất quán qua các cuộc trò chuyện dài. Sau ~10+ lượt, suy luận bị lạc hướng. 2️⃣ Trí thông minh không gian: Đào tạo hạn chế thể hiện rõ. Hiệu suất trong suy luận không gian 2D/3D chỉ cải thiện một chút so với 1.6. 🧠 Nhận định cuối Chiến lược đa phương thức thống nhất của Gemini đã hình thành một rào cản mạnh mẽ. Hầu hết các mô hình Trung Quốc vẫn bị khóa trong cuộc cạnh tranh tập trung vào văn bản. Quyết định sớm của ByteDance theo đuổi đa phương thức thống nhất là đúng — nhưng nợ lịch sử nặng nề....