一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Verdent 在 SWE-bench Verified 上得分 76.1%，与 Claude Sonnet 4.5 和其他领先模型一起跻身顶级行列。 Verdent 是一个为真实工程工作构建的多智能体 AI 编码系统。它通过计划-编码-验证工作流程，利用验证优先的架构来协调专业子智能体。更多细节如下 👇

SWE-bench Verified 使用来自生产仓库的真实 GitHub 问题 - 复杂的多文件问题，这些问题将真正的编码代理与华而不实的自动补全区分开来。76.1% pass@1 意味着自主解决 4 个真实工程任务中的 3 个。

为什么 Verdent 在 SWE-bench 中表现出色：多模型兼容性：模型无关的运行时将合适的模型匹配到每个阶段（分析使用 Claude，审查使用 GPT-5）。在完全透明和可配置的情况下保持一致的性能。自动驾驶验证：内置类型检查、静态分析、测试执行以及自动重试/调试周期。代码审查子代理处理大型差异。超越了“通过测试”到“满足开发者意图”。始终保持任务：明确的待办事项列表跟踪进度，防止在长时间会话中上下文漂移。逐步镜像人类开发者的工作流程，提高成功率和令牌效率。

计划-代码-验证工作流程： 1. 计划模式：结构化、可编辑的执行计划 2. 子代理编排：专业代理（搜索者、审阅者、验证者）通过代理规则（代理md）进行用户定义的控制，具有可个性化的行为：谨慎级别、权限、协作风格 3. DiffLens：清晰的代码交付，带有组织的差异和摘要 4. 始终保持任务专注，具有明确的进度跟踪

超越基准的生产就绪功能： - 长期终端（tmux 风格的持久性） - 斜杠命令（/init，/compact，自定义自动化） - MCP（模型上下文协议）支持 - VS Code 扩展 + 独立并行任务应用（Verdent Deck)

思考的重要性：Verdent 的实验表明，更多的推理令牌会带来更好的表现。他们发现，当允许模型有更多的“思考时间”时，性能提高了约 0.7%——证明匆忙的代码并不是好的代码，即使对于 AI 也是如此。

供应商差异：并非所有模型提供商都是平等的。他们的测试显示，一些提供商（如 AWS Bedrock）在相同条件下表现出更高的性能差异——差距可达 1.2%。明智地选择您的基础设施。

惊人的发现：当他们将 Verdent 简化为仅基本工具（bash、read、write、edit）时，SWE-bench 验证的性能几乎没有变化。这揭示了潜在的基准偏差——复杂的工具对真正的工程至关重要，但当前的基准可能无法捕捉到这种复杂性。

由前 TikTok 和百度工程师构建。Verdent 在以开发者为中心的系统中统一了行业领先的模型，如 GPT-5 和 Sonnet 4.5。这就是为真正的工程工作构建的代理编码的样子。您可以在这里开始免费试用：

7.95K