热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Sonnet 4.5 发布了!
这是迄今为止最一致的前沿模型;与 Sonnet 4 和 Opus 4.1 相比,取得了很大进展!

显著地,Sonnet 4.5 的语言表达了评估意识,远超过之前的模型。这是否会使我们的结果失效?
我们基于模型内部进行了审计,答案是“可能有一点,但大多数情况下没有。”

1. 当我们手动审查模型标记为虚假的转录时,我们判断它们显然是虚假的,这让我们没有理由相信模型在评估意识方面是超人类的。
2. 我们通过各种与评估意识相关的 SAE 特性进行了引导。这可以降低模型的对齐分数,但主要是通过使其更具帮助性而不是使其具有欺骗性。
对于我们尝试的所有引导向量,Sonnet 4.5 的对齐程度仍然高于 Sonnet 4。
然而,评估意识在未来非常重要,值得关注!
我们从自动审计中获得了很大的价值(第一篇帖子中的柱状图),为对齐缓解措施提供了快速反馈循环。
这也是我们第一次基于模型内部审计生产模型。解释研究的实际应用!
我真的为团队感到骄傲,看到这一切是如何结合在一起的真是太棒了!
66.29K
热门
排行
收藏