SWE-BENCH PRO 发布了 即使是最强大的 AI 编码模型在测试变得更困难时也会挣扎。 在 SWE-BENCH Verified 上,它们的得分约为 70%。在更困难的 SWE-BENCH PRO 上,这一得分降至 25% 以下。 SWE-BENCH Verified 一直很混乱且过于简单,模型在训练期间看到了答案,问题并不反映真实的软件工作。PRO 通过添加更接近现实的企业级长项目来解决这个问题。 - 在公共集上:GPT-5 解决了 23.3%,Claude Opus 4.1 解决了 22.7%。 - 在商业集上:更难。Claude 得分 17.8%,GPT-5 得分 14.9%。 我们学到的三件事 1. 大模型遇到了思维壁垒。GPT-5 和 Claude 可以编写干净的代码并使用工具,但它们经常逻辑错误。 2. 较小的模型更早失败。它们在语法、格式或工具使用等基础知识上崩溃。 3. 每个模型都有自己的弱点。Sonnet 的上下文窗口用完了。Gemini 混合了工具、语法和推理错误。 模型对 Python 和 Go 的处理更好。它们在 JavaScript 和 TypeScript 上仍然表现不佳。 当前的 AI 远未成为可靠的软件工程师。简单任务的成功具有误导性。现在真正的挑战不是编写代码,而是思考问题。