Nie podoba mi się te benchmarki. Chciałbym zobaczyć jakieś porównanie między Sonnet 4.5, GPT-4 a Grok-4.