热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这篇DeepMind的论文悄然揭穿了AI安全领域中最令人安慰的谎言。
安全性是关于模型大多数时间的表现,这个想法听起来合理。但在系统规模扩大时,它也是错误的。DeepMind展示了当部署达到数百万次交互时,平均值为何不再重要。
这篇论文将AGI安全重新框定为一个分布问题。重要的不是典型行为,而是尾部。罕见的失败。边缘案例。那些在测试中看似可以忽略的低概率事件,在现实世界中却变得不可避免。
基准测试、红队测试和演示都采样中间部分。部署则采样一切。奇怪的用户、奇怪的激励、敌对的反馈循环、没人计划的环境。在规模化时,这些案例不再稀有。它们是必然的。
这里有一个不舒服的洞察:进步可能让系统看起来更安全,同时悄然使其变得更危险。如果能力增长快于尾部控制,明显的失败会减少,而灾难性风险则在屏幕外堆积。
两个模型在平均值上看起来相同,但在最坏情况下的表现却可能大相径庭。当前的评估无法看到这个差距。治理框架假设它们可以。
当风险存在于分布转移中时,你无法通过有限的测试来认证安全性。你从未测试过你实际部署的系统。你是在采样一个你无法控制的未来。
这才是真正的笑点。
AGI安全不是模型属性,而是一个系统问题。部署背景、激励、监控,以及社会容忍多少尾部风险,远比干净的平均值更重要。
这篇论文并没有让人安心。它揭穿了幻觉。
问题不在于模型通常表现良好。
而在于当它表现不佳时会发生什么——以及在规模化之前,允许这种情况发生的频率有多高。
论文:

热门
排行
收藏
