Saya tidak suka tolok ukur ini. Ingin melihat beberapa perbandingan antara Sonnet 4.5, GPT-4 dan Grok-4