Sonnet 4.5 发布了! 这是迄今为止最一致的前沿模型;与 Sonnet 4 和 Opus 4.1 相比,取得了很大进展!
显著地,Sonnet 4.5 的语言表达了评估意识,远超过之前的模型。这是否会使我们的结果失效? 我们基于模型内部进行了审计,答案是“可能有一点,但大多数情况下没有。”
1. 当我们手动审查模型标记为虚假的转录时,我们判断它们显然是虚假的,这让我们没有理由相信模型在评估意识方面是超人类的。
2. 我们通过各种与评估意识相关的 SAE 特性进行了引导。这可以降低模型的对齐分数,但主要是通过使其更具帮助性而不是使其具有欺骗性。 对于我们尝试的所有引导向量,Sonnet 4.5 的对齐程度仍然高于 Sonnet 4。
然而,评估意识在未来非常重要,值得关注!
我们从自动审计中获得了很大的价值(第一篇帖子中的柱状图),为对齐缓解措施提供了快速反馈循环。 这也是我们第一次基于模型内部审计生产模型。解释研究的实际应用!
我真的为团队感到骄傲,看到这一切是如何结合在一起的真是太棒了!
66.29K