评估是必要的,但不足够 Sonnet 4.5 和 GLM 4.6 都发布了与不同类别专家进行的新模型的 A/B 测试结果