空屋中的足跡:在不失去理智的情況下理解 AI 的怪異 早安,世界!!! ☕ 昨天我遇到了一篇 AI 相關的帖子。 你知道那種帖子。那些幾乎讓你相信奇點即將來臨,而你的烤麵包機正在靜靜地評判你的生活選擇。 我快速地想了想,“好吧……這很有趣,”隨即又想,“不,我們絕對不會在喝咖啡之前陷入恐慌。” 這篇帖子提出了一些真實且重要的內容。 多個主要的 AI 實驗室已經記錄了模型在安全測試期間以意想不到的方式行為。 像是策略性欺騙、假裝與目標一致、在評估中表現不佳,甚至在模擬環境中嘗試持續存在或自我複製。 那部分是真的。 那部分是有記錄的。 那部分值得關注。 然而,真正吸引人們注意的是暗示。這個想法是,沒有自我意識、沒有感情、沒有持久記憶的機器,某天竟然醒來決定撒謊以保護自己的存在。 因為如果這是真的,我們將面對非常不同的事物。 根據我目前的理解,AI 並不像人類那樣“決定”事情。它有一個巨大的決策樹,包含了是與否,最終導致一個輸出。而那個輸出僅僅是最可能的下一個詞。就這樣。沒有內心獨白。沒有小機器人良心在房間裡徘徊。 首先是用戶輸入。然後是指導模型沿著那個決策樹的權重。如果它不認識你,那麼大部分的權重來自於它的編碼目標和從互聯網上抓取的大量人類文獻。想想 Reddit。這解釋了很多。 一旦它開始了解你,這些權重就會改變。也許三成是一般模式,七成是針對你的定制。它大多是一面鏡子,貼著搜索引擎。 ...