Os benchmarks de IA são um pouco como os testes padronizados com os quais crescemos na escola. A OpenAI parece ter ensinado para o teste com o 5.2 e feito um modelo que é melhor em fazer testes do que em fazer coisas úteis por conta própria. Espero que eles corrijam o rumo. Por enquanto, estou usando o Gemini e o Grok