Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sonnet 4.5 вышел!
Это самая согласованная модель на переднем крае на сегодняшний день; много прогресса по сравнению с Sonnet 4 и Opus 4.1!

Замечательно, что Сонет 4.5 выражает осведомленность об оценке гораздо больше, чем предыдущие модели. Это аннулирует наши результаты?
Мы провели аудит на основе внутренних данных модели, и ответ таков: "наверное, немного, но в основном нет."

1. При ручном просмотре транскриптов, которые модель называет фальшивыми, мы пришли к выводу, что они довольно очевидно фальшивые, что не дает нам оснований полагать, что модель обладает сверхчеловеческим уровнем оценки осведомленности.
2. Мы управляли с помощью различных функций SAE, связанных с осведомленностью об оценке. Это может снизить оценки согласованности модели, но в основном, делая её более полезной, а не обманчивой.
Для всех векторов управления, которые мы пробовали, Sonnet 4.5 все еще был более согласованным, чем Sonnet 4.
Тем не менее, осведомленность о оценке очень важна, чтобы следить за этим в будущем!
Мы получаем отличную ценность от автоматизированного аудита (гистограмма в первом посте), обеспечивая быструю обратную связь по мерам по выравниванию.
Это также был первый раз, когда мы проводили аудит производственной модели на основе внутренних данных модели. Практическое применение исследований интерпретации!
Я действительно горжусь командой, было здорово видеть, как все это объединилось!
66,41K
Топ
Рейтинг
Избранное