Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent obteve 76,1% no SWE-bench Verified, posicionando-se no topo ao lado de Claude Sonnet 4.5 e outros modelos líderes.
Verdent é um sistema de codificação AI multi-agente desenvolvido para trabalho de engenharia real. Ele orquestra sub-agentes especializados através de um fluxo de trabalho de planeamento-código-verificação com uma arquitetura de verificação em primeiro lugar.
Mais detalhes abaixo 👇

O SWE-bench Verified utiliza problemas reais do GitHub de repositórios de produção - os problemas complexos e multi-ficheiros que separam os verdadeiros agentes de codificação de autocompletes glorificados. 76,1% pass@1 significa resolver 3 em 4 tarefas de engenharia reais de forma autónoma.
Por que a Verdent se destaca no SWE-bench Verificado:
Compatibilidade Multi-Modelo: O runtime agnóstico a modelos combina o modelo certo para cada etapa (Claude para análise, GPT-5 para revisão). Desempenho consistente com total transparência e configurabilidade.
Verificação em Piloto Automático: Verificação de tipo embutida, análise estática, execução de testes com ciclos automáticos de retry/debugging. Sub-agentes de revisão de código lidam com grandes diferenças. Vai além de "passar testes" para "atender à intenção do desenvolvedor."
Sempre em Tarefa: Lista de tarefas explícita rastreia o progresso, previne a deriva de contexto em longas sessões. Espelha o fluxo de trabalho do desenvolvedor humano passo a passo, melhorando a taxa de sucesso e a eficiência de tokens.
O fluxo de trabalho Plan-Code-Verify:
1. Modo de Planejamento: Planos de execução estruturados e editáveis
2. Orquestração de sub-agentes: Agentes especializados (pesquisador, revisor, verificador) Controle definido pelo usuário através de regras agenticas (agentes md) com comportamento personalizável: níveis de cautela, permissões, estilos de colaboração
3. DiffLens: Entrega de código clara com diffs organizados + resumos
4. Mantém-se sempre na tarefa com rastreamento de progresso explícito

Funcionalidades prontas para produção que vão além dos benchmarks:
- Terminal de longa duração (persistência estilo tmux)
- Comandos de barra (/init, /compact, automação personalizada)
- Suporte a MCP (Protocolo de Contexto de Modelo)
- Extensão do VS Code + aplicativo de tarefas paralelas autônomo (Verdent Deck)
Pensar Importa: Os experimentos da Verdent mostram que mais tokens de raciocínio levam a um melhor desempenho. Eles descobriram uma melhoria de ~0,7% ao permitir que os modelos tivessem mais "tempo de reflexão" - provando que código apressado não é bom código, mesmo para IA.

Variação do Fornecedor: Nem todos os fornecedores de modelos são iguais. Os testes revelaram que alguns fornecedores (como o AWS Bedrock) apresentam uma maior variação de desempenho - até 1,2% de diferença em condições idênticas. Escolha sua infraestrutura com sabedoria.
Descoberta Surpreendente: Quando reduziram o Verdent a apenas ferramentas básicas (bash, ler, escrever, editar), o desempenho verificado pelo SWE-bench mal mudou.
Isto revela um potencial viés nos benchmarks - ferramentas sofisticadas importam para a engenharia real, mas os benchmarks atuais podem não capturar esta complexidade.
Construído por ex-engenheiros do TikTok e Baidu. A Verdent unifica modelos líderes da indústria como o GPT-5 e o Sonnet 4.5 em um sistema centrado no desenvolvedor. É assim que a codificação agentiva se parece quando é feita para trabalho de engenharia real. Você pode começar um teste gratuito aqui :
12,13K
Top
Classificação
Favoritos

