DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Benchmarking de Agentes de Codificação de Longa Distância Agentes de codificação por IA parecem impressionantes nos benchmarks atuais de codificação. Mas esses benchmarks geralmente otimizam e testam o que não é certo. Essa nova pesquisa introduz o SWE-EVO, um referente para a evolução de softwares de longo prazo. Até 80% do esforço de engenharia de software envolve manter e evoluir bases de código legadas, em vez de construir do zero. Os benchmarks atuais perdem isso completamente. O SWE-EVO revela a lacuna entre resolver problemas isolados e realizar uma evolução real do software. Em vez de correções de problema único, os agentes devem interpretar as notas de lançamento e implementar mudanças abrangentes que abrangem em média 21 arquivos, validados contra conjuntos de testes com média de 874 testes por instância. GPT-5 com OpenHands alcança 65% no SWE-Bench Verificado, mas apenas 21% no SWE-EVO. Os autores constatam que agentes atuais têm dificuldade com raciocínio sustentado e multi-arquivo. O benchmark é construído a partir das notas de lançamento de sete projetos maduros de código aberto em Python, incluindo scikit-learn, pydantic e dask. Cada tarefa exige a implementação de mudanças que normalmente abrangeriam múltiplos pull requests. Os patches dourados têm em média 610 linhas editadas em 21 arquivos e 51 funções. Os resultados em 11 modelos revelam padrões consistentes. Modelos maiores superam as variantes menores. GPT-5 resolve 21% contra GPT-5-mini em 10% e GPT-5-nano em 4%. O ranking reflete o desempenho do SWE-Bench, validando o SWE-EVO como um parâmetro significativo. A análise de falhas mostra padrões distintos por capacidade do modelo. Os modelos mais fortes falham principalmente no acompanhamento de instruções, interpretando mal as notas de lançamento mais complexas. Modelos mais fracos têm dificuldades com o uso de ferramentas e erros de sintaxe. Isso indica que a dificuldade SWE-EVO decorre de raciocínio semântico, não de competência de interface. Papel: Aprenda a construir agentes de IA eficazes na minha academia:

Melhores

Classificação

Favoritos