Sonnet 4.5 вышел! Это самая согласованная модель на переднем крае на сегодняшний день; много прогресса по сравнению с Sonnet 4 и Opus 4.1!
Замечательно, что Сонет 4.5 выражает осведомленность об оценке гораздо больше, чем предыдущие модели. Это аннулирует наши результаты? Мы провели аудит на основе внутренних данных модели, и ответ таков: "наверное, немного, но в основном нет."
1. При ручном просмотре транскриптов, которые модель называет фальшивыми, мы пришли к выводу, что они довольно очевидно фальшивые, что не дает нам оснований полагать, что модель обладает сверхчеловеческим уровнем оценки осведомленности.
2. Мы управляли с помощью различных функций SAE, связанных с осведомленностью об оценке. Это может снизить оценки согласованности модели, но в основном, делая её более полезной, а не обманчивой. Для всех векторов управления, которые мы пробовали, Sonnet 4.5 все еще был более согласованным, чем Sonnet 4.
Тем не менее, осведомленность о оценке очень важна, чтобы следить за этим в будущем!
Мы получаем отличную ценность от автоматизированного аудита (гистограмма в первом посте), обеспечивая быструю обратную связь по мерам по выравниванию. Это также был первый раз, когда мы проводили аудит производственной модели на основе внутренних данных модели. Практическое применение исследований интерпретации!
Я действительно горжусь командой, было здорово видеть, как все это объединилось!
66,41K