Verdent obteve 76,1% no SWE-bench Verified, posicionando-se no topo ao lado de Claude Sonnet 4.5 e outros modelos líderes. Verdent é um sistema de codificação AI multi-agente desenvolvido para trabalho de engenharia real. Ele orquestra sub-agentes especializados através de um fluxo de trabalho de planeamento-código-verificação com uma arquitetura de verificação em primeiro lugar. Mais detalhes abaixo 👇
O SWE-bench Verified utiliza problemas reais do GitHub de repositórios de produção - os problemas complexos e multi-ficheiros que separam os verdadeiros agentes de codificação de autocompletes glorificados. 76,1% pass@1 significa resolver 3 em 4 tarefas de engenharia reais de forma autónoma.
Por que a Verdent se destaca no SWE-bench Verificado: Compatibilidade Multi-Modelo: O runtime agnóstico a modelos combina o modelo certo para cada etapa (Claude para análise, GPT-5 para revisão). Desempenho consistente com total transparência e configurabilidade. Verificação em Piloto Automático: Verificação de tipo embutida, análise estática, execução de testes com ciclos automáticos de retry/debugging. Sub-agentes de revisão de código lidam com grandes diferenças. Vai além de "passar testes" para "atender à intenção do desenvolvedor." Sempre em Tarefa: Lista de tarefas explícita rastreia o progresso, previne a deriva de contexto em longas sessões. Espelha o fluxo de trabalho do desenvolvedor humano passo a passo, melhorando a taxa de sucesso e a eficiência de tokens.
O fluxo de trabalho Plan-Code-Verify: 1. Modo de Planejamento: Planos de execução estruturados e editáveis 2. Orquestração de sub-agentes: Agentes especializados (pesquisador, revisor, verificador) Controle definido pelo usuário através de regras agenticas (agentes md) com comportamento personalizável: níveis de cautela, permissões, estilos de colaboração 3. DiffLens: Entrega de código clara com diffs organizados + resumos 4. Mantém-se sempre na tarefa com rastreamento de progresso explícito
Funcionalidades prontas para produção que vão além dos benchmarks: - Terminal de longa duração (persistência estilo tmux) - Comandos de barra (/init, /compact, automação personalizada) - Suporte a MCP (Protocolo de Contexto de Modelo) - Extensão do VS Code + aplicativo de tarefas paralelas autônomo (Verdent Deck)
Pensar Importa: Os experimentos da Verdent mostram que mais tokens de raciocínio levam a um melhor desempenho. Eles descobriram uma melhoria de ~0,7% ao permitir que os modelos tivessem mais "tempo de reflexão" - provando que código apressado não é bom código, mesmo para IA.
Variação do Fornecedor: Nem todos os fornecedores de modelos são iguais. Os testes revelaram que alguns fornecedores (como o AWS Bedrock) apresentam uma maior variação de desempenho - até 1,2% de diferença em condições idênticas. Escolha sua infraestrutura com sabedoria.
Descoberta Surpreendente: Quando reduziram o Verdent a apenas ferramentas básicas (bash, ler, escrever, editar), o desempenho verificado pelo SWE-bench mal mudou. Isto revela um potencial viés nos benchmarks - ferramentas sofisticadas importam para a engenharia real, mas os benchmarks atuais podem não capturar esta complexidade.
Construído por ex-engenheiros do TikTok e Baidu. A Verdent unifica modelos líderes da indústria como o GPT-5 e o Sonnet 4.5 em um sistema centrado no desenvolvedor. É assim que a codificação agentiva se parece quando é feita para trabalho de engenharia real. Você pode começar um teste gratuito aqui :
12,13K