Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O SWE-BENCH PRO foi lançado
Até mesmo os modelos de codificação de IA mais fortes têm dificuldades quando o teste se torna mais difícil.
No SWE-BENCH Verified, eles marcaram cerca de 70%. No mais difícil SWE-BENCH PRO, isso caiu para menos de 25%.
O SWE-BENCH Verified tem sido confuso e fácil demais, os modelos viram as respostas durante o treinamento, e os problemas não refletem o trabalho real de software. O PRO corrige isso ao adicionar projetos longos de nível empresarial que estão mais próximos da vida real.
- No Conjunto Público: GPT-5 resolve 23,3%, Claude Opus 4,1 resolve 22,7%.
- No Conjunto Comercial: Ainda mais difícil. Claude marca 17,8%, GPT-5 marca 14,9%.
Três coisas que aprendemos
1. Grandes modelos atingem um muro de pensamento. GPT-5 e Claude conseguem escrever código limpo e usar ferramentas, mas muitas vezes erram na lógica.
2. Modelos menores falham mais cedo. Eles quebram em fundamentos como sintaxe, formatação ou uso de ferramentas.
3. Cada modelo tem seus próprios pontos fracos. Sonnet fica sem janela de contexto. Gemini comete uma mistura de erros de ferramenta, sintaxe e raciocínio.
Os modelos lidam melhor com Python e Go. Eles ainda têm grandes dificuldades com JavaScript e TypeScript.
A IA atual está longe de ser um engenheiro de software confiável. O sucesso em tarefas simples é enganoso. O verdadeiro desafio agora não é escrever código, mas pensar sobre o problema.


Top
Classificação
Favoritos