一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

SWE-BENCH PRO 发布了即使是最强大的 AI 编码模型在测试变得更困难时也会挣扎。在 SWE-BENCH Verified 上，它们的得分约为 70%。在更困难的 SWE-BENCH PRO 上，这一得分降至 25% 以下。 SWE-BENCH Verified 一直很混乱且过于简单，模型在训练期间看到了答案，问题并不反映真实的软件工作。PRO 通过添加更接近现实的企业级长项目来解决这个问题。 - 在公共集上：GPT-5 解决了 23.3%，Claude Opus 4.1 解决了 22.7%。 - 在商业集上：更难。Claude 得分 17.8%，GPT-5 得分 14.9%。我们学到的三件事 1. 大模型遇到了思维壁垒。GPT-5 和 Claude 可以编写干净的代码并使用工具，但它们经常逻辑错误。 2. 较小的模型更早失败。它们在语法、格式或工具使用等基础知识上崩溃。 3. 每个模型都有自己的弱点。Sonnet 的上下文窗口用完了。Gemini 混合了工具、语法和推理错误。模型对 Python 和 Go 的处理更好。它们在 JavaScript 和 TypeScript 上仍然表现不佳。当前的 AI 远未成为可靠的软件工程师。简单任务的成功具有误导性。现在真正的挑战不是编写代码，而是思考问题。