热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
SWE-BENCH PRO 发布了
即使是最强大的 AI 编码模型在测试变得更困难时也会挣扎。
在 SWE-BENCH Verified 上,它们的得分约为 70%。在更困难的 SWE-BENCH PRO 上,这一得分降至 25% 以下。
SWE-BENCH Verified 一直很混乱且过于简单,模型在训练期间看到了答案,问题并不反映真实的软件工作。PRO 通过添加更接近现实的企业级长项目来解决这个问题。
- 在公共集上:GPT-5 解决了 23.3%,Claude Opus 4.1 解决了 22.7%。
- 在商业集上:更难。Claude 得分 17.8%,GPT-5 得分 14.9%。
我们学到的三件事
1. 大模型遇到了思维壁垒。GPT-5 和 Claude 可以编写干净的代码并使用工具,但它们经常逻辑错误。
2. 较小的模型更早失败。它们在语法、格式或工具使用等基础知识上崩溃。
3. 每个模型都有自己的弱点。Sonnet 的上下文窗口用完了。Gemini 混合了工具、语法和推理错误。
模型对 Python 和 Go 的处理更好。它们在 JavaScript 和 TypeScript 上仍然表现不佳。
当前的 AI 远未成为可靠的软件工程师。简单任务的成功具有误导性。现在真正的挑战不是编写代码,而是思考问题。


热门
排行
收藏