AI benchmarks zijn een beetje zoals gestandaardiseerde tests waar we mee zijn opgegroeid op school. OpenAI lijkt zich op de test te hebben voorbereid met 5.2 en heeft een model gemaakt dat beter is in het afleggen van tests dan in het zelfstandig doen van nuttige dingen. Ik hoop dat ze hun koers corrigeren. Voor nu gebruik ik Gemini en Grok