Verdent erzielte 76,1 % im SWE-bench Verified und gehört zur Spitzenklasse zusammen mit Claude Sonnet 4.5 und anderen führenden Modellen. Verdent ist ein Multi-Agenten-AI-Codierungssystem, das für echte Ingenieurarbeit entwickelt wurde. Es orchestriert spezialisierte Unteragenten durch einen Plan-Code-Überprüfungs-Workflow mit einer verifizierungsorientierten Architektur. Weitere Details unten 👇
SWE-bench Verified verwendet echte GitHub-Issues aus Produktions-Repos - die komplexen, mehrteiligen Probleme, die echte Programmieragenten von glorifiziertem Autocomplete unterscheiden. 76,1 % pass@1 bedeutet, 3 von 4 echten Ingenieuraufgaben autonom zu lösen.
Warum Verdent auf SWE-bench überzeugt: Multi-Modell-Kompatibilität: Modell-agnostische Laufzeit passt das richtige Modell an jede Phase an (Claude für Analyse, GPT-5 für Überprüfung). Konsistente Leistung mit voller Transparenz und Konfigurierbarkeit. Verifizierung im Autopilot-Modus: Eingebaute Typprüfung, statische Analyse, Testausführung mit automatischen Wiederholungs-/Debugging-Zyklen. Code-Review-Sub-Agenten bearbeiten große Diffs. Geht über "Tests bestehen" hinaus zu "Entwicklerabsichten erfüllen." Immer an der Aufgabe: Eine explizite To-Do-Liste verfolgt den Fortschritt, verhindert Kontextdrift in langen Sitzungen. Spiegelt den Workflow menschlicher Entwickler Schritt für Schritt wider, verbessert die Erfolgsquote und die Token-Effizienz.
Der Plan-Code-Überprüfungs-Workflow: 1. Planmodus: Strukturierte, bearbeitbare Ausführungspläne 2. Sub-Agenten-Orchestrierung: Spezialisierte Agenten (Suchender, Prüfer, Verifier) Benutzerdefinierte Kontrolle durch agentische Regeln (Agenten md) mit personalisierbarem Verhalten: Vorsichtsstufen, Berechtigungen, Kollaborationsstile 3. DiffLens: Klare Codeauslieferung mit organisierten Diffs + Zusammenfassungen 4. Bleibt immer fokussiert mit explizitem Fortschritts-Tracking
Produktionsbereite Funktionen, die über Benchmarks hinausgehen: - Langfristiges Terminal (tmux-ähnliche Persistenz) - Slash-Befehle (/init, /compact, benutzerdefinierte Automatisierung) - MCP (Model Context Protocol) Unterstützung - VS Code Erweiterung + eigenständige Parallelaufgaben-App (Verdent Deck)
Denken zählt: Verdents Experimente zeigen, dass mehr Denk-Tokens zu einer besseren Leistung führen. Sie fanden eine Verbesserung von ~0,7 %, als sie den Modellen mehr "Denkzeit" erlaubten - was beweist, dass hastiger Code kein guter Code ist, selbst für KI.
Anbieterabweichung: Nicht alle Modellanbieter sind gleich. Ihre Tests haben ergeben, dass einige Anbieter (wie AWS Bedrock) eine höhere Leistungsabweichung aufweisen - bis zu 1,2 % Unterschied unter identischen Bedingungen. Wählen Sie Ihre Infrastruktur weise.
Überraschende Entdeckung: Als sie Verdent auf nur grundlegende Werkzeuge (bash, lesen, schreiben, bearbeiten) reduzierten, änderte sich die von SWE-bench verifizierte Leistung kaum. Dies offenbart potenzielle Benchmark-Bias - ausgeklügelte Werkzeuge sind für echtes Engineering wichtig, aber aktuelle Benchmarks erfassen möglicherweise nicht diese Komplexität.
Entwickelt von ehemaligen Ingenieuren von TikTok und Baidu. Verdent vereint branchenführende Modelle wie GPT-5 und Sonnet 4.5 in einem entwicklerzentrierten System. So sieht agentisches Codieren aus, wenn es für echte Ingenieurarbeit entwickelt wird. Sie können hier eine kostenlose Testversion starten :
12,06K