Сонет 4.5 вийшов! Це найбільш узгоджена модель фронтиру на сьогоднішній день; великий прогрес у порівнянні з Сонетом 4 та Опусом 4.1!
Примітно, що Sonnet 4.5 вербалізує свідомість набагато більше, ніж попередні моделі. Чи не робить це недійсними наші результати? Ми провели аудит на основі внутрішніх компонентів моделі, і відповідь була такою: «Можливо, трохи, але в основному ні».
1. Коли ми вручну переглядали стенограми, які модель називає підробкою, ми оцінили їх як досить очевидно фальшиві, що не дає нам підстав вважати, що модель є надлюдською в часі свідомості.
2. Ми впоралися з різними функціями SAE, пов'язаними з усвідомленням eval. Це може зменшити показники вирівнювання моделі, але в основному за рахунок того, що вона стає більш корисною, а не оманливою. Для всіх векторів керма, які ми спробували, Сонет 4.5 все ще був більш узгодженим, ніж Сонет 4
Тим не менш, усвідомлення євангелії дуже важливе, щоб стежити за тим, щоб рухатися вперед!
Ми отримуємо велику користь від автоматизованого аудиту (гістограма в першому пості), що забезпечує швидкий цикл зворотного зв'язку щодо пом'якшення наслідків вирівнювання. Це також був перший раз, коли ми проводили аудит виробничої моделі на основі внутрішніх компонентів моделі. Практичне застосування інтерп досліджень!
Я дуже пишаюся командою, було круто бачити, як все це зійшлося!
66,28K