熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Verdent 在 SWE-bench Verified 上得分 76.1%,與 Claude Sonnet 4.5 和其他領先模型一起進入頂級行列。
Verdent 是一個多代理 AI 編碼系統,專為真實工程工作而建。它通過計劃-編碼-驗證的工作流程,利用驗證優先的架構協調專門的子代理。
更多詳情如下 👇

SWE-bench Verified 使用來自生產庫的真實 GitHub 問題 - 這些複雜的多檔案問題將真正的編碼代理與華而不實的自動完成功能區分開來。76.1% pass@1 意味著自主解決 4 個真實工程任務中的 3 個。
為什麼 Verdent 在 SWE-bench 上表現出色:
多模型兼容性:模型無關的運行時將合適的模型匹配到每個階段(分析使用 Claude,審查使用 GPT-5)。始終如一的性能,具備完全的透明度和可配置性。
自動駕駛的驗證:內建類型檢查、靜態分析、測試執行,並自動重試/調試循環。代碼審查子代理處理大型差異。超越了「通過測試」到「滿足開發者意圖」。
始終保持任務:明確的待辦事項清單跟蹤進度,防止在長時間會議中出現上下文漂移。逐步模擬人類開發者的工作流程,提高成功率和令牌效率。
計劃-代碼-驗證工作流程:
1. 計劃模式:結構化、可編輯的執行計劃
2. 子代理協調:專業代理(搜尋者、審核者、驗證者)通過代理規則(agents md)用戶定義的控制,具有可個性化的行為:謹慎級別、權限、協作風格
3. DiffLens:清晰的代碼交付,帶有組織化的差異 + 摘要
4. 始終保持專注,並明確跟踪進度

生產就緒的功能超越基準:
- 長期運行的終端(tmux 風格的持久性)
- 斜線命令(/init, /compact, 自定義自動化)
- MCP(模型上下文協議)支持
- VS Code 擴展 + 獨立的並行任務應用(Verdent Deck)
思考的重要性:Verdent 的實驗顯示,更多的推理代幣能帶來更好的表現。他們發現,當模型有更多的「思考時間」時,性能提升約 0.7%——證明了匆忙的代碼並不是好的代碼,即使對於 AI 來說也是如此。

供應商差異:並非所有模型提供者都是平等的。他們的測試顯示某些提供者(如 AWS Bedrock)在相同條件下顯示出更高的性能差異——高達 1.2% 的差距。明智地選擇您的基礎設施。
驚人的發現:當他們將 Verdent 簡化到僅使用基本工具(bash、read、write、edit)時,SWE-bench 驗證的性能幾乎沒有變化。
這揭示了潛在的基準偏差 - 複雜的工具對於真正的工程至關重要,但當前的基準可能無法捕捉到這種複雜性。
由前 TikTok 和百度工程師打造。Verdent 將行業領先的模型如 GPT-5 和 Sonnet 4.5 統一於一個以開發者為中心的系統中。這就是為真正的工程工作而構建的代理編碼的樣子。您可以在這裡開始免費試用:
7.97K
熱門
排行
收藏

