No me gustan estos puntos de referencia. Me encantaría haber visto alguna comparación entre Sonnet 4.5, GPT-4 y Grok-4