Оценки необходимы, но недостаточны Как Sonnet 4.5, так и GLM 4.6 опубликовали результаты A/B тестов с экспертами в различных категориях для своих новых моделей