Não gosto desses benchmarks. Gostaria de ter visto alguma comparação entre o Sonnet 4.5, GPT-4 e o Grok-4