基准测试长时间编码代理 AI编码代理在当前的编码基准测试中看起来令人印象深刻。但这些基准测试往往优化和测试错误的内容。 这项新研究介绍了SWE-EVO,一个用于长时间软件演变的基准。 多达80%的软件工程工作涉及维护和演变遗留代码库,而不是从头开始构建。当前的基准完全忽视了这一点。SWE-EVO揭示了解决孤立问题与进行真实软件演变之间的差距。 代理必须解释发布说明,并实施跨越平均21个文件的全面更改,而不是单一问题的修复,这些更改经过平均874个测试的测试套件验证。 使用OpenHands的GPT-5在SWE-Bench Verified上获得65%,但在SWE-EVO上仅获得21%。 作者发现当前的代理在持续的多文件推理方面存在困难。 该基准是由七个成熟的开源Python项目的发布说明构建的,包括scikit-learn、pydantic和dask。每个任务都需要实施通常跨越多个拉取请求的更改。金色补丁平均编辑610行,涉及21个文件和51个函数。 11个模型的结果揭示了一致的模式。较大的模型优于较小的变体。GPT-5解决了21%,而GPT-5-mini为10%,GPT-5-nano为4%。排名与SWE-Bench的表现相符,验证了SWE-EVO作为一个有意义的基准。 失败分析显示出模型能力的不同模式。最强的模型主要在遵循指令方面失败,误解了细微的发布说明。较弱的模型在工具使用和语法错误方面存在困难。这表明SWE-EVO的难度源于语义推理,而不是接口能力。 论文: 在我的学院学习如何构建有效的AI代理: