Verdent a obtenu 76,1 % sur SWE-bench Verified, se classant dans le top tier aux côtés de Claude Sonnet 4.5 et d'autres modèles de premier plan. Verdent est un système de codage AI multi-agents conçu pour un travail d'ingénierie réel. Il orchestre des sous-agents spécialisés à travers un flux de travail planifier-coder-vérifier avec une architecture axée sur la vérification. Plus de détails ci-dessous 👇
SWE-bench Verified utilise de véritables problèmes GitHub provenant de dépôts de production - les problèmes complexes et multi-fichiers qui distinguent les véritables agents de codage des simples complétions automatiques. 76,1 % pass@1 signifie résoudre 3 tâches d'ingénierie réelles sur 4 de manière autonome.
Pourquoi Verdent excelle sur SWE-bench Vérifié : Compatibilité Multi-Modeles : Un runtime agnostique au modèle associe le bon modèle à chaque étape (Claude pour l'analyse, GPT-5 pour la révision). Performance constante avec une transparence et une configurabilité totales. Vérification en Autopilote : Vérification de type intégrée, analyse statique, exécution de tests avec cycles de réessai/debugging automatiques. Les sous-agents de révision de code gèrent de grands changements. Va au-delà de "passer des tests" pour "répondre à l'intention du développeur." Toujours en Tâche : Une liste de tâches explicite suit les progrès, empêche la dérive de contexte lors de longues sessions. Reflète le flux de travail d'un développeur humain étape par étape, améliorant le taux de réussite et l'efficacité des tokens.
Le flux de travail Plan-Code-Vérifier : 1. Mode Plan : Plans d'exécution structurés et modifiables 2. Orchestration de sous-agents : Agents spécialisés (chercheur, examinateur, vérificateur) Contrôle défini par l'utilisateur à travers des règles agentiques (agents md) avec un comportement personnalisable : niveaux de prudence, permissions, styles de collaboration 3. DiffLens : Livraison de code claire avec des diffs organisés + résumés 4. Reste toujours concentré sur la tâche avec un suivi explicite des progrès
Fonctionnalités prêtes pour la production qui vont au-delà des benchmarks : - Terminal à long terme (persistance de style tmux) - Commandes slash (/init, /compact, automatisation personnalisée) - Support du MCP (Model Context Protocol) - Extension VS Code + application de tâches parallèles autonome (Verdent Deck)
La réflexion compte : les expériences de Verdent montrent que plus de tokens de raisonnement conduisent à de meilleures performances. Ils ont constaté une amélioration d'environ 0,7 % en permettant aux modèles plus de "temps de réflexion" - prouvant que le code précipité n'est pas un bon code, même pour l'IA.
Variance des fournisseurs : Tous les fournisseurs de modèles ne sont pas égaux. Leurs tests ont révélé que certains fournisseurs (comme AWS Bedrock) présentent une variance de performance plus élevée - jusqu'à 1,2 % d'écart dans des conditions identiques. Choisissez votre infrastructure judicieusement.
Découverte surprenante : Lorsqu'ils ont réduit Verdent à de simples outils (bash, lire, écrire, éditer), la performance vérifiée par SWE-bench a à peine changé. Cela révèle un potentiel biais de benchmark - des outils sophistiqués sont importants pour l'ingénierie réelle, mais les benchmarks actuels peuvent ne pas capturer cette complexité.
Construit par d'anciens ingénieurs de TikTok et Baidu. Verdent unifie des modèles de pointe comme GPT-5 et Sonnet 4.5 dans un système centré sur les développeurs. Voici à quoi ressemble le codage agentique lorsqu'il est conçu pour un travail d'ingénierie réel. Vous pouvez commencer un essai gratuit ici :
12,09K