Verdent a obținut un scor de 76,1% pe SWE-bench Verified, aterizând în top alături de Claude Sonnet 4.5 și alte modele de top. Verdent este un sistem de codare AI cu mai mulți agenți construit pentru lucrări reale de inginerie. Orchestrează subagenți specializați printr-un flux de lucru de verificare a codului de planificare cu arhitectură de verificare pe primul loc. Mai multe detalii mai jos 👇
SWE-bench Verified folosește probleme GitHub reale din depozitele de producție - problemele complexe, cu mai multe fișiere, care separă agenții de codare reali de completarea automată glorificată. 76,1% pass@1 înseamnă rezolvarea autonomă a 3 din 4 sarcini reale de inginerie.
De ce Verdent excelează la SWE-bench Verified: Compatibilitate cu mai multe modele: Timpul de execuție independent de model potrivește modelul potrivit pentru fiecare etapă (Claude pentru analiză, GPT-5 pentru revizuire). Performanță constantă cu transparență și configurabilitate deplină. Verificare pe Autopilot: Verificare de tip încorporată, analiză statică, execuție de teste cu cicluri automate de reîncercare/depanare. Subagenții de revizuire a codului gestionează diferențe mari. Merge dincolo de "trecerea testelor" la "îndeplinirea intenției dezvoltatorului". Sarcină permanentă: Lista explicită de sarcini urmărește progresul, previne devierea contextului în sesiuni lungi. Oglindește fluxul de lucru al dezvoltatorului uman pas cu pas, îmbunătățind rata de succes și eficiența tokenurilor.
Fluxul de lucru Plan-Code-Verify: 1. Mod plan: Planuri de execuție structurate, editabile 2. Orchestrarea sub-agenților: Agenți specializați (searcher, reviewer, verifier) Control definit de utilizator prin reguli agentice (agents md) cu comportament personalizabil: niveluri de precauție, permisiuni, stiluri de colaborare 3. DiffLens: Livrare clară a codului cu diferențe organizate + rezumate 4. Rămâne întotdeauna concentrat pe sarcină cu urmărirea explicită a progresului
Caracteristici gata de producție care se extind dincolo de benchmark-uri: - Terminal de lungă durată (persistență în stil tmux) - Comenzi de bară oblică (/init, /compact, automatizare personalizată) - Suport MCP (Model Context Protocol) - Extensie VS Code + aplicație de sarcini paralele independentă (Verdent Deck)
Gândirea contează: Experimentele lui Verdent arată că mai multe jetoane de raționament duc la performanțe mai bune. Ei au găsit o îmbunătățire de ~0,7% atunci când au permis modelelor mai mult "timp de gândire" - dovedind că codul grăbit nu este un cod bun, chiar și pentru AI.
Variația furnizorului: Nu toți furnizorii de modele sunt egali. Testele lor au arătat că unii furnizori (cum ar fi AWS Bedrock) prezintă o variație mai mare a performanței - până la 1,2% decalaj în condiții identice. Alegeți-vă infrastructura cu înțelepciune.
Descoperire surprinzătoare: Când au redus Verdent la doar instrumente de bază (bash, citit, scriere, editare), performanța SWE-bench Verified abia s-a schimbat. Acest lucru dezvăluie o potențială prejudecată a benchmark-ului - instrumentele sofisticate contează pentru ingineria reală, dar este posibil ca benchmark-urile actuale să nu surprindă această complexitate.
Construit de foști ingineri TikTok și Baidu. Verdent unifică modelele de top din industrie, cum ar fi GPT-5 și Sonnet 4.5, într-un sistem centrat pe dezvoltatori. Așa arată codificarea agentică atunci când este construită pentru lucrări reale de inginerie. Puteți începe încercarea gratuită aici:
12,15K