Lanzamiento de SWE-BENCH PRO Incluso los modelos de codificación de IA más fuertes tienen dificultades cuando la prueba se vuelve más difícil. En SWE-BENCH Verified obtuvieron una puntuación de alrededor del 70%. En el SWE-BENCH PRO, más duro, eso cayó a menos del 25%. SWE-BENCH Verified ha sido complicado y demasiado fácil, los modelos han visto las respuestas durante el entrenamiento y los problemas no reflejan el trabajo real del software. PRO soluciona esto agregando proyectos largos de nivel empresarial que están más cerca de la vida real. - En el set público: GPT-5 resuelve el 23,3%, Claude Opus 4.1 resuelve el 22,7%. - En el set comercial: Aún más difícil. Claude obtiene un 17,8%, GPT-5 un 14,9%. Tres cosas que aprendimos 1. Los grandes modelos chocan contra un muro de pensamiento. GPT-5 y Claude pueden escribir código limpio y usar herramientas, pero a menudo se equivocan en la lógica. 2. Los modelos más pequeños fallan antes. Rompen con conceptos básicos como la sintaxis, el formato o el uso de herramientas. 3. Cada modelo tiene sus propios puntos débiles. El soneto se queda sin ventana de contexto. Géminis comete una mezcla de errores de herramienta, sintaxis y razonamiento. Los modelos manejan Python y Go better. Todavía luchan mucho con JavaScript y TypeScript. La IA actual está lejos de ser un ingeniero de software confiable. El éxito en tareas simples es engañoso. El verdadero desafío ahora no es escribir código, es pensar en el problema.