熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Zhihu Frontier
🚀將中國的人工智慧與科技趨勢、聲音與觀點帶到全球舞台。
⚡️由中國領先的知識平台知虎提供動力。
🔥 ByteDance 剛剛發布了 Doubao-Seed-1.8(Agent 模型)—— 這裡有來自知乎貢獻者 toyama nao 的深入評估 👀
🔮 TL;DR: 在混亂中開啟眼界。
在 2025 年,Seed 團隊的 1.5 和 1.6 模型穩居中國頂級和全球第二級。自 1.5 以來,Seed 在統一的多模態建模上加大了投入,這在國內模型中相對罕見。
話雖如此,Seed-1.6 受到嚴厲批評:大規模的強化學習提升了基準分數,但在現實世界的泛化能力上卻落後於 Qwen3,距離全球領先者還有很大差距。隨著 GLM 和 MiniMax 向 Agent 應用傾斜,Doubao 的弱 Agent 能力使其陷入困境。
然而,Seed-1.8 重返第一級並不令人驚訝——驚喜在於效率(圖 1)‼️
中等版本使用 5K 代幣達到與 Seed-1.6 相同的智能,入場價格為 ¥2,這使其極具成本效益——這條路讓人想起 DeepSeek。
高級別擴展推理,預算更大,並且與美國頂級模型非常接近。擁有強大的視覺和多模態理解,加上圖像/視頻生成僅落後半步——可以公平地稱 Seed 為 "迷你-Gemini"。
改進之處 🚀
1️⃣ 長鏈推理:
Seed-1.8 在更長的 CoT 中保持專注,仔細驗證分支以達到正確的解決方案。
它的優勢更多來自持續的注意力和徹底的搜索,而不是深度的人類般抽象。Gemini 3 Pro 和 GPT-5.2 仍然以約 60% 的代幣獲得更高的分數——這是更強原始智能的跡象。
2️⃣ 信息提取:
高準確性,但效率低下。Seed-1.8 在 CoT 中傾向於重述和註釋完整的源文本。簡單的 10K 提取任務可能需要 2 倍的代幣,且在較低的推理預算下準確性急劇下降。未啟用推理的情況下,提取幾乎無法使用。(Gemini 3 Pro 在約 4K 代幣中處理相同任務。)
3️⃣ 編碼:
歷來是弱點,但正在改善。Seed-1.8 繼承了最近的代碼模型的增益,並可用於 0→1 的 "氛圍編碼"。仍然遠未達到頂級工程模型的水平——尤其是在系統級思維方面。
仍然存在的不足 ⚠️
1️⃣ 多輪一致性:
比 Seed-1.6 更好,現在 "基本可用",但仍然難以在長對話中持續跟蹤目標。在約 10 次以上的回合後,推理會漂移。
2️⃣ 空間智能:
有限的訓練顯示出來。2D/3D 空間推理的表現幾乎沒有改善。
🧠 最終看法
Gemini 的統一多模態策略已經形成了強大的護城河。大多數中國模型仍然鎖定在以文本為中心的競爭中。ByteDance 早期決定追求統一多模態是正確的——但歷史負擔沉重。
Seed-1.8 並不完美。然而,隨著弱點逐漸填補——多輪強化學習、編碼深度、知識擴展,Seed 仍然可能成為下一個時代的明星,受到 ByteDance 巨大的互聯網規模資源的推動✨
🔗 原文(CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

下一代 LLM 架構會是什麼樣子?
這個問題不斷引發辯論 — Zhihu 貢獻者及開發者 Yuxuan 提供了 DeepSeek Sparse Attention (DSA) 和 Native Sparse Attention (NSA) 之間的尖銳比較,以及使用 TileLang 實現 DSA 操作的實用觀察。
🚀 為什麼 DSA > NSA(在長上下文任務中):
從將 DSA 添加到小模型並與 NSA 進行比較的實驗中,DSA 一直表現更好 — 主要是由於兩個關鍵設計選擇:
1️⃣ Attn-Score 蒸餾 → 對索引選擇的明確監督
2️⃣ 令牌級稀疏而非區塊級 → 更細緻、更準確的檢索
🔍 1) Attn-Score 蒸餾
稀疏注意力依賴於選擇正確的鍵值對。
DSA 直接使用真實的注意力分數來監督索引模塊,使訓練與實際目標對齊:"選擇關鍵令牌。"
而 NSA 只優化 LM 損失,對索引準確性沒有明確約束 — 這解釋了它在長文檔檢索基準上的較弱表現。
🔍 2) 令牌級與區塊級稀疏
準確性隨計算預算而增長:更精確的索引 → 更好的檢索。
令牌級索引(DSA)自然比區塊級(NSA)產生更高的保真度。
從這個角度來看,NSA 的性能瓶頸是可以預期的 — 一個有趣的問題是:區塊大小=8 會幫助 NSA 追上 DSA 嗎?
⚙️ 真正的挑戰:高效訓練 DSA
DSA 訓練涉及預熱 → 稀疏微調。
挑戰在於計算和存儲兩個分支的注意力分數。
一個天真的實現需要 O(n²) 的存儲 — 抵消了 FlashAttention 的內存節省。
即使是預過濾(k=2048, h=512+64)仍然需要大量緩衝區。
📎 代碼:
🧩 核心融合來拯救(圖 1)
為了避免存儲大量中間的 Attn-Scores,DSA 使用融合內核。
一個關鍵技巧是將索引分數 + Top-k 合併到一個內核中:
• 保持 2K 緩衝區
• 計算每個區塊的索引分數
• 運行基於比特排序的合併
• 保留 top-K 分數及其位置
不需要 CUDA — 使用 TileLang DSL 實現,靈感來自 fla-org/native-sparse-attention。
🧾 總結
DSA 相對於 NSA 的優勢來自於:
• Attn-Score 蒸餾(明確監督)
• 令牌級稀疏(更高的索引準確性)
而且通過核心融合,其昂貴的訓練管道變得內存可行。
📖 閱讀完整文章:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

641
🤔 Baidu ERNIE 5.0 來了——它真的有多好?
來自知乎貢獻者 toyama nao 的廣泛閱讀評論提供了清晰的分析。
Baidu 在版本匹配的發布上落後於 OpenAI 3-6 個月。在 GPT-5 之後,ERNIE 5.0 準時到來——與匆忙推出的 4.5 不同,它終於看起來像是一個穩固的一級國產模型。
性能提升約 80% 超過 X1.1,大致與 MiniMax M2 相當。訓練數據似乎重新構建:輸出更乾淨且更連貫(圖 1)。
👇 這裡是精煉的比較:
✅ ERNIE 5.0 的改進之處
• 指令遵循:高分甚至達到頂級峰值——但有奇怪的低端失誤(例如,通過中日期格式不一致)。
• 基本計算:對 K12 級別的數學可靠;比 X1.1 更穩定,但在複雜任務上仍然弱於 M2。
• 輸出更乾淨:X1.1 受到噪音提煉數據和尷尬翻譯的困擾。ERNIE 5.0 在很大程度上修復了這一點:思路更清晰,最終答案更乾淨,可讀性更好。
🙋 仍然存在的挑戰
• 高幻覺率:在數學符號恢復、字符混淆和長上下文任務上,出現了太多自信但錯誤的答案——更接近二級推理性能。
• 低洞察力:未能識別潛在模式(#46 字母模式,#32 日曆推理),經常是強行解決而不是抽象化。
• 偶爾出現無限循環:雖然罕見(<3%),但令人驚訝,因為它們在最近的國產模型中已經消失。
• 多輪能力弱:經常在第 7 輪之前忘記規則或之前的回合;觸發循環的情況更容易。
💬 評價
中國的萬億參數時代剛剛過去 3 個月,而 Baidu 已經跳到了 2T 模型。
然而,與 Kimi K2 Thinking 相比,ERNIE 5.0 感覺有點 "膨脹"——大而有能力,但未完全利用其重量。
不過,這可能是 @Baidu_Inc 長期待望的回歸信號——提醒人們 Baidu 打算繼續參加 LLM 競賽。
📖 完整評估:
🔗 基準:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

702
熱門
排行
收藏
