أنا لا أحب هذه المعايير. أحب أن أرى بعض المقارنة بين Sonnet 4.5 و GPT-4 و Grok-4