DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A Verdent obteve 76,1% no SWE-bench Verified, chegando ao nível superior ao lado do Claude Sonnet 4.5 e outros modelos líderes. Verdent é um sistema de codificação de IA multiagente construído para trabalhos reais de engenharia. Ele orquestra subagentes especializados por meio de um fluxo de trabalho de verificação de código de plano com arquitetura de verificação em primeiro lugar. Mais detalhes abaixo 👇

O SWE-bench Verified usa problemas reais do GitHub de repositórios de produção - os problemas complexos de vários arquivos que separam os agentes de codificação reais do preenchimento automático glorificado. 76,1% pass@1 significa resolver 3 em cada 4 tarefas reais de engenharia de forma autônoma.

Por que a Verdent se destaca no banco SWE Verificado: Compatibilidade com vários modelos: o tempo de execução independente do modelo corresponde ao modelo certo para cada estágio (Claude para análise, GPT-5 para revisão). Desempenho consistente com total transparência e configurabilidade. Verificação no piloto automático: verificação de tipo integrada, análise estática, execução de teste com ciclos automáticos de repetição/depuração. Os subagentes de revisão de código lidam com diffs grandes. Vai além de "passar nos testes" para "atender à intenção do desenvolvedor". Tarefa sempre ativa: a lista de tarefas explícita rastreia o progresso, evita o desvio de contexto em sessões longas. Espelha o fluxo de trabalho do desenvolvedor humano passo a passo, melhorando a taxa de sucesso e a eficiência do token.

O fluxo de trabalho Plan-Code-Verify: 1. Modo de Plano: Planos de execução estruturados e editáveis 2. Orquestração de subagentes: Agentes especializados (pesquisador, revisor, verificador) Controle definido pelo usuário por meio de regras agenciais (agentes md) com comportamento personalizável: níveis de cuidado, permissões, estilos de colaboração 3. DiffLens: Entrega de código clara com diffs + resumos organizados 4. Sempre permanece na tarefa com acompanhamento explícito do progresso

Recursos prontos para produção que vão além dos benchmarks: - Terminal de longa duração (persistência no estilo tmux) - Comandos de barra (/init, /compact, automação personalizada) - Suporte a MCP (Model Context Protocol) - Extensão VS Code + aplicativo de tarefa paralela autônomo (Verdent Deck)

O pensamento é importante: Os experimentos da Verdent mostram que mais tokens de raciocínio levam a um melhor desempenho. Eles encontraram uma melhoria de ~ 0,7% ao permitir que os modelos tenham mais "tempo de pensamento" - provando que o código apressado não é um bom código, mesmo para IA.

Variação do fornecedor: nem todos os provedores de modelo são iguais. Seus testes revelaram que alguns provedores (como o AWS Bedrock) mostram maior variação de desempenho - até 1,2% de diferença em condições idênticas. Escolha sua infraestrutura com sabedoria.

Descoberta surpreendente: Quando eles reduziram o Verdent a apenas ferramentas básicas (bash, ler, escrever, editar), o desempenho verificado do SWE-bench quase não mudou. Isso revela um possível viés de benchmark - ferramentas sofisticadas são importantes para a engenharia real, mas os benchmarks atuais podem não capturar essa complexidade.

Construído por ex-engenheiros do TikTok e Baidu. A Verdent unifica modelos líderes do setor, como GPT-5 e Sonnet 4.5, em um sistema centrado no desenvolvedor. É assim que a codificação agêntica se parece quando é criada para um trabalho real de engenharia. Você pode iniciar o teste gratuito aqui:

12,12K

Melhores

Classificação

Favoritos