Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO lançado
Mesmo os modelos de codificação de IA mais fortes lutam quando o teste fica mais difícil.
No SWE-BENCH Verified, eles marcaram cerca de 70%. No SWE-BENCH PRO mais resistente, isso caiu para menos de 25%.
SWE-BENCH Verified tem sido confuso e muito fácil, os modelos viram as respostas durante o treinamento e os problemas não refletem o trabalho real do software. O PRO corrige isso adicionando projetos longos de nível empresarial que estão mais próximos da vida real.
- No set público: GPT-5 resolve 23,3%, Claude Opus 4,1 resolve 22,7%.
- No set comercial: Ainda mais difícil. Claude pontua 17,8%, GPT-5 pontua 14,9%.
Três coisas que aprendemos
1. Grandes modelos atingem uma parede de pensamento. GPT-5 e Claude podem escrever código limpo e usar ferramentas, mas muitas vezes erram a lógica.
2. Modelos menores falham mais cedo. Eles quebram noções básicas como sintaxe, formatação ou uso de ferramentas.
3. Cada modelo tem seus próprios pontos fracos. O soneto fica sem janela de contexto. Gêmeos faz uma mistura de erros de ferramenta, sintaxe e raciocínio.
Os modelos lidam melhor com Python e Go. Eles ainda lutam muito em JavaScript e TypeScript.
A IA atual está longe de ser um engenheiro de software confiável. O sucesso em tarefas simples é enganoso. O verdadeiro desafio agora não é escrever código, é pensar no problema.


Melhores
Classificação
Favoritos