Ewaluacje są konieczne, ale niewystarczające Zarówno Sonnet 4.5, jak i GLM 4.6 opublikowały wyniki testów A/B z ekspertami w różnych kategoriach dla swoich nowych modeli