Ik hou niet van deze benchmarks. Ik had graag een vergelijking gezien tussen Sonnet 4.5, GPT-4 en Grok-4