热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Zhihu Frontier
🚀将中国的人工智能与科技趋势、声音和视角带到全球舞台。
⚡️由中国领先的知识平台知虎提供支持。
🔥 ByteDance刚刚发布了Doubao-Seed-1.8(Agent模型)——以下是来自知乎贡献者toyama nao的深入评估👀
🔮 TL;DR:在混乱中开眼界。
在2025年,Seed团队的1.5和1.6模型稳居中国顶级和全球第二级。自1.5以来,Seed在统一的多模态建模上加大了投入,这在国内模型中相对少见。
话虽如此,Seed-1.6受到了严重批评:大规模的强化学习提升了基准分数,但在现实世界的泛化能力上落后于Qwen3,远不及全球领先者。随着GLM和MiniMax向Agent应用倾斜,Doubao的弱Agent能力使其陷入困境。
然而,Seed-1.8重返第一梯队并不令人惊讶——惊讶的是效率(图1)‼️
中等版本使用5000个tokens而不是15000个,达到了与Seed-1.6相同的智能,入门价格为¥2,极具性价比——这条路径让人想起DeepSeek。
高端版本在更大的预算下扩展推理,显著接近顶级美国模型。凭借强大的视觉和多模态理解,加上图像/视频生成仅落后半步——称Seed为“迷你Gemini”是公平的。
改进之处🚀
1️⃣ 长链推理:
Seed-1.8在更长的CoT中保持专注,仔细验证分支以达到正确的解决方案。
它的优势更多来自持续的注意力和全面的搜索,而非深度的人类抽象。Gemini 3 Pro和GPT-5.2仍以约60%的tokens获得更高的分数——这表明其原始智能更强。
2️⃣ 信息提取:
高准确性,但效率低下。Seed-1.8在CoT过程中倾向于重述和注释完整的源文本。一个简单的1万tokens提取任务可能需要2倍的tokens,且在较低的推理预算下准确性急剧下降。没有启用推理时,提取几乎无法使用。(Gemini 3 Pro在约4000个tokens内处理同样的任务。)
3️⃣ 编码:
历史上是一个弱点,但正在改善。Seed-1.8继承了最近的代码模型的收益,适用于0→1的“氛围编码”。仍然远未达到顶级工程模型——尤其是在系统级思维方面。
仍然存在的不足⚠️
1️⃣ 多轮连贯性:
比Seed-1.6更好,现在“基本可用”,但在长对话中仍然难以持续跟踪目标。在约10轮后,推理会漂移。
2️⃣ 空间智能:
有限的训练显示出效果。2D/3D空间推理的表现几乎没有比1.6有所改善。
🧠 最终看法
Gemini的统一多模态战略已经形成了强大的护城河。大多数中国模型仍然锁定在以文本为中心的竞争中。ByteDance早期决定追求统一多模态是正确的——但历史债务沉重。
Seed-1.8并不完美。然而,随着弱点逐渐被填补——多轮强化学习、编码深度、知识扩展,Seed仍可能在ByteDance庞大的互联网规模资源的推动下,点燃下一个时代的明星✨
🔗 原文(CN):
#AI #LLM #Multimodal #Agent #ByteDance #Seed

9
下一代 LLM 架构将是什么样子?
这个问题不断引发辩论——知乎贡献者和开发者 Yuxuan 对 DeepSeek 稀疏注意力(DSA)和原生稀疏注意力(NSA)进行了尖锐的比较,并对使用 TileLang 实现 DSA 操作进行了实用的探讨。
🚀 为什么 DSA > NSA(在长上下文任务中):
通过将 DSA 添加到小模型并与 NSA 进行比较的实验,DSA 一直表现更好——主要归因于两个关键设计选择:
1️⃣ 注意力分数蒸馏 → 对索引选择的显式监督
2️⃣ 令牌级稀疏而非块级稀疏 → 更细粒度,更准确的检索
🔍 1) 注意力分数蒸馏
稀疏注意力依赖于选择正确的键值对。
DSA 直接使用真实的注意力分数对索引模块进行监督,使训练与实际目标对齐:“选择关键令牌。”
而 NSA 仅优化语言模型损失,对索引准确性没有显式约束——这解释了它在长文档检索基准上的较弱表现。
🔍 2) 令牌级与块级稀疏
准确性与计算预算成正比:更精确的索引 → 更好的检索。
令牌级索引(DSA)自然比块级索引(NSA)具有更高的保真度。
从这个角度来看,NSA 的性能瓶颈是可以预期的——一个有趣的问题是:块大小=8 是否能帮助 NSA 赶上 DSA?
⚙️ 真实挑战:高效训练 DSA
DSA 训练涉及预热 → 稀疏微调。
挑战在于计算和存储两个分支的注意力分数。
一个简单的实现需要 O(n²) 存储——抵消了 FlashAttention 的内存节省。
即使是预过滤(k=2048,h=512+64)仍然需要大缓冲区。
📎 代码:
🧩 内核融合的救助(图 1)
为了避免存储大量中间注意力分数,DSA 使用融合内核。
一个关键技巧是将索引分数 + 前 k 合并到一个内核中:
• 维持一个 2K 缓冲区
• 为每个块计算索引分数
• 运行基于比特排序的合并
• 保留前 K 分数及其位置
不需要 CUDA——使用 TileLang DSL 实现,灵感来自 fla-org/native-sparse-attention。
🧾 总结
DSA 相对于 NSA 的优势在于:
• 注意力分数蒸馏(显式监督)
• 令牌级稀疏(更高的索引准确性)
而通过内核融合,其高成本的训练管道变得内存可行。
📖 阅读完整文章:
#DeepSeek #SparseAttention #DSA #NSA #TileLang #LLM #AIInfra

654
🤔 百度 ERNIE 5.0 来了——它真的有多好?
来自知乎贡献者 toyama nao 的广泛阅读评论提供了清晰的分析。
百度在版本发布上落后于 OpenAI 3-6 个月。在 GPT-5 之后,ERNIE 5.0 按时到达——与匆忙推出的 4.5 不同,它终于看起来像一个稳固的一线国内模型。
性能提升约 80% 超过 X1.1,大致与 MiniMax M2 相匹配。训练数据似乎被重建:输出更加干净和连贯(图 1)。
👇 这是提炼的比较:
✅ ERNIE 5.0 改进的地方
• 指令跟随:高分甚至达到顶级峰值——但有奇怪的低端失败(例如,跨通道不一致的日期格式)。
• 基本计算:对于 K12 级别的数学可靠;比 X1.1 更稳定,尽管在复杂任务上仍然弱于 M2。
• 输出更干净:X1.1 遭受了嘈杂的提炼数据和尴尬的翻译。ERNIE 5.0 在很大程度上解决了这个问题:思路更清晰,最终答案更干净,可读性更好。
🙋 仍然存在的挑战
• 高幻觉率:在数学符号恢复、字符混淆和长上下文任务上,太多自信但错误的答案——更接近二线推理性能。
• 低洞察力:未能识别潜在模式(#46 字母模式,#32 日历推理),往往是强行解决而不是抽象。
• 偶尔出现无限循环:罕见(<3%),但令人惊讶,因为它们在最近的国内模型中已经消失。
• 多轮能力弱:在第 7 轮之前,常常忘记规则或之前的轮次;更容易触发循环。
💬 评判
中国的万亿参数时代刚刚过去 3 个月,百度已经跃升至 2T 模型。
然而,与 Kimi K2 Thinking 相比,ERNIE 5.0 感觉有点“膨胀”——大而有能力,但没有充分利用其重量。
尽管如此,这可能是 @Baidu_Inc 期待已久的回归信号——提醒人们百度打算继续参与 LLM 竞赛。
📖 完整评估:
🔗 基准:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

711
热门
排行
收藏
