我不喜歡這些基準測試。希望能看到 Sonnet 4.5、GPT-4 和 Grok-4 之間的一些比較。