Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO se lanzó
Incluso los modelos de codificación de IA más fuertes luchan cuando la prueba se vuelve más difícil.
En SWE-BENCH Verified obtuvieron alrededor del 70%. En el más difícil SWE-BENCH PRO, eso cayó por debajo del 25%.
SWE-BENCH Verified ha sido desordenado y demasiado fácil, los modelos han visto las respuestas durante el entrenamiento, y los problemas no reflejan el trabajo real de software. PRO soluciona esto al agregar proyectos a nivel empresarial, largos y más cercanos a la vida real.
- En el Conjunto Público: GPT-5 resuelve el 23.3%, Claude Opus 4.1 resuelve el 22.7%.
- En el Conjunto Comercial: Aún más difícil. Claude obtiene un 17.8%, GPT-5 un 14.9%.
Tres cosas que aprendimos
1. Los grandes modelos chocan con un muro de pensamiento. GPT-5 y Claude pueden escribir código limpio y usar herramientas, pero a menudo se equivocan en la lógica.
2. Los modelos más pequeños fallan antes. Se rompen en lo básico como la sintaxis, el formato o el uso de herramientas.
3. Cada modelo tiene sus propios puntos débiles. Sonnet se queda sin ventana de contexto. Gemini comete una mezcla de errores de herramienta, sintaxis y razonamiento.
Los modelos manejan mejor Python y Go. Aún luchan mucho con JavaScript y TypeScript.
La IA actual está lejos de ser un ingeniero de software confiable. El éxito en tareas simples es engañoso. El verdadero desafío ahora no es escribir código, sino pensar en el problema.


Parte superior
Clasificación
Favoritos