Tyto benchmarky se mi nelíbí. Rád bych viděl nějaké srovnání mezi Sonnetem 4.5, GPT-4 a Grok-4