Las evaluaciones son necesarias pero no suficientes Tanto Sonnet 4.5 como GLM 4.6 publicaron los resultados de las pruebas A/B con expertos en diferentes categorías para sus nuevos modelos