Evals diperlukan tetapi tidak cukup Baik Sonnet 4.5 dan GLM 4.6 menerbitkan hasil pengujian A/B dengan para ahli dalam kategori yang berbeda untuk model baru mereka