Evals är nödvändiga men inte tillräckliga Både Sonnet 4.5 och GLM 4.6 har publicerat A/B-testresultat med experter i olika kategorier för sina nya modeller