SWE-BENCH PRO lançado Mesmo os modelos de codificação de IA mais fortes lutam quando o teste fica mais difícil. No SWE-BENCH Verified, eles marcaram cerca de 70%. No SWE-BENCH PRO mais resistente, isso caiu para menos de 25%. SWE-BENCH Verified tem sido confuso e muito fácil, os modelos viram as respostas durante o treinamento e os problemas não refletem o trabalho real do software. O PRO corrige isso adicionando projetos longos de nível empresarial que estão mais próximos da vida real. - No set público: GPT-5 resolve 23,3%, Claude Opus 4,1 resolve 22,7%. - No set comercial: Ainda mais difícil. Claude pontua 17,8%, GPT-5 pontua 14,9%. Três coisas que aprendemos 1. Grandes modelos atingem uma parede de pensamento. GPT-5 e Claude podem escrever código limpo e usar ferramentas, mas muitas vezes erram a lógica. 2. Modelos menores falham mais cedo. Eles quebram noções básicas como sintaxe, formatação ou uso de ferramentas. 3. Cada modelo tem seus próprios pontos fracos. O soneto fica sem janela de contexto. Gêmeos faz uma mistura de erros de ferramenta, sintaxe e raciocínio. Os modelos lidam melhor com Python e Go. Eles ainda lutam muito em JavaScript e TypeScript. A IA atual está longe de ser um engenheiro de software confiável. O sucesso em tarefas simples é enganoso. O verdadeiro desafio agora não é escrever código, é pensar no problema.