🤔 百度 ERNIE 5.0 来了——它真的有多好? 来自知乎贡献者 toyama nao 的广泛阅读评论提供了清晰的分析。 百度在版本发布上落后于 OpenAI 3-6 个月。在 GPT-5 之后,ERNIE 5.0 按时到达——与匆忙推出的 4.5 不同,它终于看起来像一个稳固的一线国内模型。 性能提升约 80% 超过 X1.1,大致与 MiniMax M2 相匹配。训练数据似乎被重建:输出更加干净和连贯(图 1)。 👇 这是提炼的比较: ✅ ERNIE 5.0 改进的地方 • 指令跟随:高分甚至达到顶级峰值——但有奇怪的低端失败(例如,跨通道不一致的日期格式)。 • 基本计算:对于 K12 级别的数学可靠;比 X1.1 更稳定,尽管在复杂任务上仍然弱于 M2。 • 输出更干净:X1.1 遭受了嘈杂的提炼数据和尴尬的翻译。ERNIE 5.0 在很大程度上解决了这个问题:思路更清晰,最终答案更干净,可读性更好。 🙋 仍然存在的挑战 • 高幻觉率:在数学符号恢复、字符混淆和长上下文任务上,太多自信但错误的答案——更接近二线推理性能。 • 低洞察力:未能识别潜在模式(#46 字母模式,#32 日历推理),往往是强行解决而不是抽象。 • 偶尔出现无限循环:罕见(<3%),但令人惊讶,因为它们在最近的国内模型中已经消失。 • 多轮能力弱:在第 7 轮之前,常常忘记规则或之前的轮次;更容易触发循环。 💬 评判 中国的万亿参数时代刚刚过去 3 个月,百度已经跃升至 2T 模型。 然而,与 Kimi K2 Thinking 相比,ERNIE 5.0 感觉有点“膨胀”——大而有能力,但没有充分利用其重量。 尽管如此,这可能是 @Baidu_Inc 期待已久的回归信号——提醒人们百度打算继续参与 LLM 竞赛。 📖 完整评估: 🔗 基准: #ERNIE5 #Baidu #AI #LLM #ChinaAI