Les benchmarks de l'IA sont un peu comme les tests standardisés que nous avons connus à l'école. OpenAI semble avoir appris à réussir ces tests avec la version 5.2 et a créé un modèle qui est meilleur pour passer des tests que pour faire des choses utiles par lui-même. J'espère qu'ils vont corriger le tir. Pour l'instant, j'utilise Gemini et Grok