Verdent scoorde 76,1% op SWE-bench Verified, en bevindt zich in de topklasse naast Claude Sonnet 4.5 en andere toonaangevende modellen. Verdent is een multi-agent AI-coderingssysteem dat is gebouwd voor echt engineeringwerk. Het orkestreert gespecialiseerde sub-agenten via een plan-code-verifieer workflow met een verificatie-eerst architectuur. Meer details hieronder 👇
SWE-bench Verified gebruikt echte GitHub-issues uit productie-repositories - de complexe, multi-bestand problemen die echte coderingsagenten scheiden van glorified autocomplete. 76,1% pass@1 betekent dat 3 van de 4 echte engineeringtaken autonoom worden opgelost.
Waarom Verdent uitblinkt op SWE-bench Geverifieerd: Multi-Model Compatibiliteit: Model-agnostische runtime koppelt het juiste model aan elke fase (Claude voor analyse, GPT-5 voor beoordeling). Consistente prestaties met volledige transparantie en configureerbaarheid. Verificatie op Autopilot: Ingebouwde typecontrole, statische analyse, testuitvoering met automatische herhaal-/debugcycli. Codebeoordelingssubagenten verwerken grote verschillen. Gaat verder dan "testen doorstaan" naar "voldoen aan de intentie van de ontwikkelaar." Altijd aan Taak: Expliciete takenlijst volgt de voortgang, voorkomt contextafdrift in lange sessies. Spiegelt de workflow van de menselijke ontwikkelaar stap voor stap, waardoor het slagingspercentage en de token efficiëntie verbeteren.
De Plan-Code-Verify workflow: 1. Plannenmodus: Gestructureerde, bewerkbare uitvoeringsplannen 2. Sub-agent orchestration: Gespecialiseerde agenten (zoeker, beoordelaar, verificateur) Door de gebruiker gedefinieerde controle via agentregels (agents md) met personaliseerbaar gedrag: voorzichtigheidsniveaus, machtigingen, samenwerkingsstijlen 3. DiffLens: Duidelijke codelevering met georganiseerde diffs + samenvattingen 4. Blijft altijd op taak met expliciete voortgangsregistratie
Productieklaar functies die verder gaan dan benchmarks: - Langdurige terminal (tmux-stijl persistentie) - Slash-commando's (/init, /compact, aangepaste automatisering) - MCP (Model Context Protocol) ondersteuning - VS Code-extensie + zelfstandige parallelle taakapp (Verdent Deck)
Denken Telt: De experimenten van Verdent tonen aan dat meer redeneertokens leiden tot betere prestaties. Ze vonden een verbetering van ~0,7% toen modellen meer "denktijd" kregen - wat bewijst dat gehaaste code geen goede code is, zelfs niet voor AI.
Leverancier Variantie: Niet alle modelleveranciers zijn gelijk. Hun tests toonden aan dat sommige leveranciers (zoals AWS Bedrock) een hogere prestatievariantie vertonen - tot 1,2% verschil onder identieke omstandigheden. Kies je infrastructuur verstandig.
Verrassende ontdekking: Toen ze Verdent terugbrachten tot alleen de basisgereedschappen (bash, lezen, schrijven, bewerken), veranderde de door SWE-bench geverifieerde prestatie nauwelijks. Dit onthult een potentieel benchmark-bias - geavanceerde tools zijn belangrijk voor echte engineering, maar huidige benchmarks vangen deze complexiteit mogelijk niet.
Gebouwd door ex-TikTok en Baidu ingenieurs. Verdent verenigt toonaangevende modellen zoals GPT-5 en Sonnet 4.5 in een ontwikkelaarsgericht systeem. Dit is hoe agentisch coderen eruitziet wanneer het is gebouwd voor echt engineeringwerk. Je kunt hier een gratis proefperiode starten :
12,13K