一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Sonnet 4.5 发布了！这是迄今为止最一致的前沿模型；与 Sonnet 4 和 Opus 4.1 相比，取得了很大进展！

显著地，Sonnet 4.5 的语言表达了评估意识，远超过之前的模型。这是否会使我们的结果失效？我们基于模型内部进行了审计，答案是“可能有一点，但大多数情况下没有。”

1. 当我们手动审查模型标记为虚假的转录时，我们判断它们显然是虚假的，这让我们没有理由相信模型在评估意识方面是超人类的。

2. 我们通过各种与评估意识相关的 SAE 特性进行了引导。这可以降低模型的对齐分数，但主要是通过使其更具帮助性而不是使其具有欺骗性。对于我们尝试的所有引导向量，Sonnet 4.5 的对齐程度仍然高于 Sonnet 4。

然而，评估意识在未来非常重要，值得关注！

我们从自动审计中获得了很大的价值（第一篇帖子中的柱状图），为对齐缓解措施提供了快速反馈循环。这也是我们第一次基于模型内部审计生产模型。解释研究的实际应用！

我真的为团队感到骄傲，看到这一切是如何结合在一起的真是太棒了！

66.29K