一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

基准测试长时间编码代理 AI编码代理在当前的编码基准测试中看起来令人印象深刻。但这些基准测试往往优化和测试错误的内容。这项新研究介绍了SWE-EVO，一个用于长时间软件演变的基准。多达80%的软件工程工作涉及维护和演变遗留代码库，而不是从头开始构建。当前的基准完全忽视了这一点。SWE-EVO揭示了解决孤立问题与进行真实软件演变之间的差距。代理必须解释发布说明，并实施跨越平均21个文件的全面更改，而不是单一问题的修复，这些更改经过平均874个测试的测试套件验证。使用OpenHands的GPT-5在SWE-Bench Verified上获得65%，但在SWE-EVO上仅获得21%。作者发现当前的代理在持续的多文件推理方面存在困难。该基准是由七个成熟的开源Python项目的发布说明构建的，包括scikit-learn、pydantic和dask。每个任务都需要实施通常跨越多个拉取请求的更改。金色补丁平均编辑610行，涉及21个文件和51个函数。 11个模型的结果揭示了一致的模式。较大的模型优于较小的变体。GPT-5解决了21%，而GPT-5-mini为10%，GPT-5-nano为4%。排名与SWE-Bench的表现相符，验证了SWE-EVO作为一个有意义的基准。失败分析显示出模型能力的不同模式。最强的模型主要在遵循指令方面失败，误解了细微的发布说明。较弱的模型在工具使用和语法错误方面存在困难。这表明SWE-EVO的难度源于语义推理，而不是接口能力。论文：在我的学院学习如何构建有效的AI代理：