SWE-BENCH PRO se lanzó Incluso los modelos de codificación de IA más fuertes luchan cuando la prueba se vuelve más difícil. En SWE-BENCH Verified obtuvieron alrededor del 70%. En el más difícil SWE-BENCH PRO, eso cayó por debajo del 25%. SWE-BENCH Verified ha sido desordenado y demasiado fácil, los modelos han visto las respuestas durante el entrenamiento, y los problemas no reflejan el trabajo real de software. PRO soluciona esto al agregar proyectos a nivel empresarial, largos y más cercanos a la vida real. - En el Conjunto Público: GPT-5 resuelve el 23.3%, Claude Opus 4.1 resuelve el 22.7%. - En el Conjunto Comercial: Aún más difícil. Claude obtiene un 17.8%, GPT-5 un 14.9%. Tres cosas que aprendimos 1. Los grandes modelos chocan con un muro de pensamiento. GPT-5 y Claude pueden escribir código limpio y usar herramientas, pero a menudo se equivocan en la lógica. 2. Los modelos más pequeños fallan antes. Se rompen en lo básico como la sintaxis, el formato o el uso de herramientas. 3. Cada modelo tiene sus propios puntos débiles. Sonnet se queda sin ventana de contexto. Gemini comete una mezcla de errores de herramienta, sintaxis y razonamiento. Los modelos manejan mejor Python y Go. Aún luchan mucho con JavaScript y TypeScript. La IA actual está lejos de ser un ingeniero de software confiable. El éxito en tareas simples es engañoso. El verdadero desafío ahora no es escribir código, sino pensar en el problema.