DApp Store | Pusat Web3 untuk Event & Game

Topik trending

🔥 ByteDance baru saja merilis Doubao-Seed-1.8 (Model Agen) — dan berikut adalah evaluasi mendalam dari kontributor Zhihu toyama nao 👀 🔮 TL; DR: Pembuka mata di tengah kekacauan. Sepanjang tahun 2025, model 1.5 dan 1.6 tim Seed tetap kokoh di tingkat teratas China dan tingkat kedua global. Sejak 1,5, Seed telah menggandakan pemodelan multimoda terpadu, taruhan yang relatif langka di antara model domestik. Konon, Seed-1.6 banyak dikritik: RL skala besar meningkatkan skor benchmark, tetapi generalisasi dunia nyata tertinggal dari Qwen3 dan jauh dari pemimpin global. Saat GLM dan MiniMax bersandar pada aplikasi Agen, kemampuan agen Doubao yang lemah membuatnya kesulitan. Namun, kembalinya Seed-1.8 ke tingkat pertama bukanlah kejutan — kejutannya adalah efisiensi (Gambar 1)! !️ Versi menengah mencapai kecerdasan yang sama dengan Seed-1.6 menggunakan token 5K, bukan 15K, dengan harga masuk ¥2, membuatnya sangat hemat biaya — jalur yang mengingatkan pada DeepSeek. Tingkat tinggi berskala penalaran dengan anggaran yang lebih besar dan sangat mendekati model AS teratas. Dengan visi yang kuat & pemahaman multimodal, ditambah pembuatan gambar/video hanya setengah langkah di belakang — wajar untuk menyebut Seed sebagai "Gemini mini." Di mana ia meningkat 🚀 1️⃣ Penalaran rantai panjang: Seed-1.8 mempertahankan fokus di CoT yang jauh lebih panjang, dengan hati-hati memvalidasi cabang untuk mencapai solusi yang benar. Kekuatannya lebih berasal dari perhatian berkelanjutan dan pencarian menyeluruh daripada abstraksi seperti manusia yang mendalam. Gemini 3 Pro dan GPT-5.2 masih mencapai skor yang lebih tinggi dengan ~60% token — tanda kecerdasan mentah yang lebih kuat. 2️⃣ Ekstraksi informasi: Akurasi tinggi, tetapi tidak efisien. Seed-1.8 cenderung menyatakan ulang dan memberi anotasi teks sumber lengkap selama CoT. Tugas ekstraksi 10K sederhana dapat menelan biaya 2× token, dan akurasi turun tajam pada anggaran penalaran yang lebih rendah. Tanpa penalaran yang diaktifkan, ekstraksi hampir tidak dapat digunakan. (Gemini 3 Pro menangani tugas yang sama dalam ~4K token.) 3️⃣ Pengkodean: Secara historis titik lemah, tetapi membaik. Seed-1.8 mewarisi keuntungan dari model Code terbaru dan dapat digunakan untuk 0→1 "coding getaran". Masih jauh dari model teknik tingkat atas — terutama dalam pemikiran tingkat sistem. Di mana masih gagal ⚠️ 1️⃣ Koherensi multi-putaran: Lebih baik dari Seed-1.6, sekarang "pada dasarnya dapat digunakan", tetapi masih berjuang untuk secara konsisten melacak tujuan di seluruh percakapan yang panjang. Setelah ~10+ putaran, penalaran melayang. 2️⃣ Kecerdasan spasial: Pertunjukan pelatihan terbatas. Performa pada penalaran spasial 2D/3D hampir tidak meningkat dari 1,6. 🧠 Pengambilan terakhir Strategi multimoda terpadu Gemini telah membentuk parit yang kuat. Sebagian besar model Tiongkok masih terkunci dalam persaingan yang berpusat pada teks. Keputusan awal ByteDance untuk mengejar multimodalitas terpadu adalah benar - tetapi utang historis sangat berat....

Teratas

Peringkat

Favorit