AI benchmarky jsou trochu jako standardizované testy, se kterými jsme vyrůstali ve škole. OpenAI se zdá, že učilo test s verzí 5.2 a vytvořilo model, který je lepší v testování než v užitečných věcech samostatně. Doufám, že se změní. Prozatím používám Gemini a Grok