热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🤔 百度 ERNIE 5.0 来了——它真的有多好?
来自知乎贡献者 toyama nao 的广泛阅读评论提供了清晰的分析。
百度在版本发布上落后于 OpenAI 3-6 个月。在 GPT-5 之后,ERNIE 5.0 按时到达——与匆忙推出的 4.5 不同,它终于看起来像一个稳固的一线国内模型。
性能提升约 80% 超过 X1.1,大致与 MiniMax M2 相匹配。训练数据似乎被重建:输出更加干净和连贯(图 1)。
👇 这是提炼的比较:
✅ ERNIE 5.0 改进的地方
• 指令跟随:高分甚至达到顶级峰值——但有奇怪的低端失败(例如,跨通道不一致的日期格式)。
• 基本计算:对于 K12 级别的数学可靠;比 X1.1 更稳定,尽管在复杂任务上仍然弱于 M2。
• 输出更干净:X1.1 遭受了嘈杂的提炼数据和尴尬的翻译。ERNIE 5.0 在很大程度上解决了这个问题:思路更清晰,最终答案更干净,可读性更好。
🙋 仍然存在的挑战
• 高幻觉率:在数学符号恢复、字符混淆和长上下文任务上,太多自信但错误的答案——更接近二线推理性能。
• 低洞察力:未能识别潜在模式(#46 字母模式,#32 日历推理),往往是强行解决而不是抽象。
• 偶尔出现无限循环:罕见(<3%),但令人惊讶,因为它们在最近的国内模型中已经消失。
• 多轮能力弱:在第 7 轮之前,常常忘记规则或之前的轮次;更容易触发循环。
💬 评判
中国的万亿参数时代刚刚过去 3 个月,百度已经跃升至 2T 模型。
然而,与 Kimi K2 Thinking 相比,ERNIE 5.0 感觉有点“膨胀”——大而有能力,但没有充分利用其重量。
尽管如此,这可能是 @Baidu_Inc 期待已久的回归信号——提醒人们百度打算继续参与 LLM 竞赛。
📖 完整评估:
🔗 基准:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

热门
排行
收藏

