Sonnet 4.5 已經推出! 這是迄今為止最一致的前沿模型;相較於 Sonnet 4 和 Opus 4.1,進展非常大!
顯然,Sonnet 4.5 的語言表達了評估意識,遠超過之前的模型。這是否使我們的結果無效? 我們根據模型內部進行了審計,答案是「可能有一點,但大多數情況下不是。」
1. 當我們手動審查模型標記為假冒的轉錄時,我們判斷它們顯然是假的,這讓我們沒有理由相信模型在評估意識方面是超人級的。
2. 我們使用了各種與評估意識相關的 SAE 特徵進行引導。這可以降低模型的對齊分數,但主要是通過使其更具幫助性而不是使其具有欺騙性。 對於我們嘗試的所有引導向量,Sonnet 4.5 的對齊程度仍然高於 Sonnet 4。
然而,評估意識在未來非常重要,必須保持關注!
我們從自動化審計中獲得了很大的價值(第一篇文章中的條形圖),提供了對對齊緩解措施的快速反饋循環。 這也是我們第一次根據模型內部審計生產模型。詮釋研究的實際應用!
我真的很驕傲這個團隊,看到這一切是如何結合在一起的真是太棒了!
66.15K