Evals sind notwendig, aber nicht ausreichend Sowohl Sonnet 4.5 als auch GLM 4.6 veröffentlichten A/B-Test Ergebnisse mit Experten in verschiedenen Kategorien für ihre neuen Modelle