一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Sonnet 4.5 已經推出！這是迄今為止最一致的前沿模型；相較於 Sonnet 4 和 Opus 4.1，進展非常大！

顯然，Sonnet 4.5 的語言表達了評估意識，遠超過之前的模型。這是否使我們的結果無效？我們根據模型內部進行了審計，答案是「可能有一點，但大多數情況下不是。」

1. 當我們手動審查模型標記為假冒的轉錄時，我們判斷它們顯然是假的，這讓我們沒有理由相信模型在評估意識方面是超人級的。

2. 我們使用了各種與評估意識相關的 SAE 特徵進行引導。這可以降低模型的對齊分數，但主要是通過使其更具幫助性而不是使其具有欺騙性。對於我們嘗試的所有引導向量，Sonnet 4.5 的對齊程度仍然高於 Sonnet 4。

然而，評估意識在未來非常重要，必須保持關注！

我們從自動化審計中獲得了很大的價值（第一篇文章中的條形圖），提供了對對齊緩解措施的快速反饋循環。這也是我們第一次根據模型內部審計生產模型。詮釋研究的實際應用！

我真的很驕傲這個團隊，看到這一切是如何結合在一起的真是太棒了！

66.15K