Evals ضرورية ولكنها ليست كافية نشر كل من Sonnet 4.5 و GLM 4.6 نتائج اختبار A / B مع خبراء في فئات مختلفة لنماذجهم الجديدة