Verdent ha ottenuto il 76,1% su SWE-bench Verified, posizionandosi nella fascia alta insieme a Claude Sonnet 4.5 e ad altri modelli leader. Verdent è un sistema di codifica AI multi-agente progettato per lavori di ingegneria reale. Orchestrando sub-agenti specializzati attraverso un flusso di lavoro pianifica-codifica-verifica con architettura orientata alla verifica. Maggiori dettagli qui sotto 👇
SWE-bench Verified utilizza problemi reali di GitHub provenienti da repository di produzione - i problemi complessi e multi-file che separano i veri agenti di codifica da un autocomplete glorificato. Il 76,1% pass@1 significa risolvere 3 su 4 compiti ingegneristici reali in modo autonomo.
Perché Verdent eccelle su SWE-bench Verificato: Compatibilità Multi-Modello: il runtime agnostico rispetto al modello abbina il modello giusto a ciascuna fase (Claude per l'analisi, GPT-5 per la revisione). Prestazioni costanti con piena trasparenza e configurabilità. Verifica in Autopilota: controllo dei tipi integrato, analisi statica, esecuzione dei test con cicli automatici di ripetizione/debugging. Gli agenti di revisione del codice gestiscono grandi differenze. Va oltre il "superare i test" per "soddisfare l'intento dello sviluppatore." Sempre in Attività: una lista di cose da fare esplicita tiene traccia dei progressi, previene la deriva del contesto in sessioni lunghe. Rispecchia il flusso di lavoro dello sviluppatore umano passo dopo passo, migliorando il tasso di successo e l'efficienza dei token.
Il flusso di lavoro Plan-Code-Verify: 1. Modalità Pianificazione: Piani di esecuzione strutturati e modificabili 2. Orchestrazione dei sub-agenti: Agenti specializzati (ricercatore, revisore, verificatore) Controllo definito dall'utente attraverso regole agentiche (agenti md) con comportamento personalizzabile: livelli di cautela, permessi, stili di collaborazione 3. DiffLens: Consegna chiara del codice con differenze organizzate + riepiloghi 4. Rimane sempre concentrato sul compito con tracciamento esplicito dei progressi
Funzionalità pronte per la produzione che vanno oltre i benchmark: - Terminale a lungo termine (persistenza in stile tmux) - Comandi slash (/init, /compact, automazione personalizzata) - Supporto per MCP (Model Context Protocol) - Estensione per VS Code + app standalone per attività parallele (Verdent Deck)
Il pensiero conta: gli esperimenti di Verdent mostrano che un numero maggiore di token di ragionamento porta a migliori prestazioni. Hanno riscontrato un miglioramento di circa lo 0,7% consentendo ai modelli più "tempo di riflessione" - dimostrando che il codice affrettato non è un buon codice, nemmeno per l'AI.
Variazione del fornitore: Non tutti i fornitori di modelli sono uguali. I loro test hanno rivelato che alcuni fornitori (come AWS Bedrock) mostrano una maggiore variazione delle prestazioni - fino a un divario dell'1,2% in condizioni identiche. Scegli la tua infrastruttura con saggezza.
Scoperta sorprendente: Quando hanno ridotto Verdent a semplici strumenti (bash, read, write, edit), le prestazioni verificate da SWE-bench sono cambiate di poco. Questo rivela un potenziale bias nei benchmark - strumenti sofisticati sono importanti per l'ingegneria reale, ma i benchmark attuali potrebbero non catturare questa complessità.
Costruito da ex ingegneri di TikTok e Baidu. Verdent unifica modelli leader del settore come GPT-5 e Sonnet 4.5 in un sistema centrato sullo sviluppatore. Questo è come appare la programmazione agentica quando è progettata per un lavoro di ingegneria reale. Puoi iniziare la prova gratuita qui :
7,97K