熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這篇 DeepMind 的論文靜靜地揭穿了 AI 安全中最令人安慰的謊言。
安全性是關於模型大部分時間的行為這個想法聽起來合理,但在系統擴展時,它也是錯誤的。DeepMind 展示了為什麼當部署達到數百萬次互動時,平均值不再重要。
這篇論文將 AGI 安全重新框架為一個分佈問題。重要的不是典型行為,而是尾部。罕見的失敗。邊緣案例。那些在測試中看似可以忽略的低概率事件,在現實世界中卻變得不可避免。
基準測試、紅隊測試和演示都取樣中間部分。部署則取樣所有情況。奇怪的用戶、奇怪的激勵、敵對的反饋循環、沒有人計劃的環境。在擴展時,這些情況不再是罕見的。它們是必然的。
這裡有一個不舒服的見解:進步可以讓系統看起來更安全,同時悄悄地使它們變得更危險。如果能力增長速度快於尾部控制,則可見的失敗會減少,而災難性風險則在螢幕外堆積。
兩個模型在平均上看起來可以相同,但在最壞情況下的行為卻可能大相徑庭。當前的評估無法看到這一差距。治理框架假設它們可以。
當風險存在於分佈轉移中時,你無法通過有限的測試來認證安全性。你從未測試實際部署的系統。你是在取樣一個你無法控制的未來。
這才是真正的重點。
AGI 安全不是模型屬性,而是一個系統問題。部署上下文、激勵、監控,以及社會能容忍多少尾部風險,這些都比乾淨的平均值更重要。
這篇論文並不讓人安心。它消除了幻想。
問題不在於模型通常是否表現良好。
而是當它表現不佳時會發生什麼——以及在規模使其不可接受之前,這種情況被允許的頻率有多高。
論文:

熱門
排行
收藏
