热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Verdent 在 SWE-bench Verified 上得分 76.1%,与 Claude Sonnet 4.5 和其他领先模型一起跻身顶级行列。
Verdent 是一个为真实工程工作构建的多智能体 AI 编码系统。它通过计划-编码-验证工作流程,利用验证优先的架构来协调专业子智能体。
更多细节如下 👇

SWE-bench Verified 使用来自生产仓库的真实 GitHub 问题 - 复杂的多文件问题,这些问题将真正的编码代理与华而不实的自动补全区分开来。76.1% pass@1 意味着自主解决 4 个真实工程任务中的 3 个。
为什么 Verdent 在 SWE-bench 中表现出色:
多模型兼容性:模型无关的运行时将合适的模型匹配到每个阶段(分析使用 Claude,审查使用 GPT-5)。在完全透明和可配置的情况下保持一致的性能。
自动驾驶验证:内置类型检查、静态分析、测试执行以及自动重试/调试周期。代码审查子代理处理大型差异。超越了“通过测试”到“满足开发者意图”。
始终保持任务:明确的待办事项列表跟踪进度,防止在长时间会话中上下文漂移。逐步镜像人类开发者的工作流程,提高成功率和令牌效率。
计划-代码-验证工作流程:
1. 计划模式:结构化、可编辑的执行计划
2. 子代理编排:专业代理(搜索者、审阅者、验证者)通过代理规则(代理md)进行用户定义的控制,具有可个性化的行为:谨慎级别、权限、协作风格
3. DiffLens:清晰的代码交付,带有组织的差异和摘要
4. 始终保持任务专注,具有明确的进度跟踪

超越基准的生产就绪功能:
- 长期终端(tmux 风格的持久性)
- 斜杠命令(/init,/compact,自定义自动化)
- MCP(模型上下文协议)支持
- VS Code 扩展 + 独立并行任务应用(Verdent Deck)
思考的重要性:Verdent 的实验表明,更多的推理令牌会带来更好的表现。他们发现,当允许模型有更多的“思考时间”时,性能提高了约 0.7%——证明匆忙的代码并不是好的代码,即使对于 AI 也是如此。

供应商差异:并非所有模型提供商都是平等的。他们的测试显示,一些提供商(如 AWS Bedrock)在相同条件下表现出更高的性能差异——差距可达 1.2%。明智地选择您的基础设施。
惊人的发现:当他们将 Verdent 简化为仅基本工具(bash、read、write、edit)时,SWE-bench 验证的性能几乎没有变化。
这揭示了潜在的基准偏差——复杂的工具对真正的工程至关重要,但当前的基准可能无法捕捉到这种复杂性。
由前 TikTok 和百度工程师构建。Verdent 在以开发者为中心的系统中统一了行业领先的模型,如 GPT-5 和 Sonnet 4.5。这就是为真正的工程工作构建的代理编码的样子。您可以在这里开始免费试用:
7.95K
热门
排行
收藏

