我不喜欢这些基准测试。希望能看到 Sonnet 4.5、GPT-4 和 Grok-4 之间的一些比较。