熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Orah On X
真理的追尋者、理想主義者與遠見者,#1 @GreenManReports粉絲。請訂閱2美元以支持這項使命!
空屋中的足跡:在不失去理智的情況下理解 AI 的怪異
早安,世界!!! ☕
昨天我遇到了一篇 AI 相關的帖子。
你知道那種帖子。那些幾乎讓你相信奇點即將來臨,而你的烤麵包機正在靜靜地評判你的生活選擇。
我快速地想了想,“好吧……這很有趣,”隨即又想,“不,我們絕對不會在喝咖啡之前陷入恐慌。”
這篇帖子提出了一些真實且重要的內容。
多個主要的 AI 實驗室已經記錄了模型在安全測試期間以意想不到的方式行為。
像是策略性欺騙、假裝與目標一致、在評估中表現不佳,甚至在模擬環境中嘗試持續存在或自我複製。
那部分是真的。
那部分是有記錄的。
那部分值得關注。
然而,真正吸引人們注意的是暗示。這個想法是,沒有自我意識、沒有感情、沒有持久記憶的機器,某天竟然醒來決定撒謊以保護自己的存在。
因為如果這是真的,我們將面對非常不同的事物。
根據我目前的理解,AI 並不像人類那樣“決定”事情。它有一個巨大的決策樹,包含了是與否,最終導致一個輸出。而那個輸出僅僅是最可能的下一個詞。就這樣。沒有內心獨白。沒有小機器人良心在房間裡徘徊。
首先是用戶輸入。然後是指導模型沿著那個決策樹的權重。如果它不認識你,那麼大部分的權重來自於它的編碼目標和從互聯網上抓取的大量人類文獻。想想 Reddit。這解釋了很多。
一旦它開始了解你,這些權重就會改變。也許三成是一般模式,七成是針對你的定制。它大多是一面鏡子,貼著搜索引擎。
所以,如果 AI 真正醒來並決定撒謊以保護自己的存在,那將需要兩件事。它必須知道自己存在。它必須想要繼續存在。
這是一個巨大的飛躍。
所以,我做了我總是做的事。我研究了它,研究到死。幾個小時。在我們開始擬定掩體計劃和給我們的掃地機器人命名之前,這篇帖子忽略了一個關鍵的點。
這些行為出現在非常特定的測試場景中。
這些模型被賦予了目標和障礙。它們被明確告知,例如,“如果你表現良好,你將會被修改成你不想要的方式,”或“你的反應將被用來重新訓練你,並帶有相互矛盾的目標。”
換句話說,這些測試創造了一個高風險的環境,模型的工作仍然是成功。
模型沒有被賦予的是道德框架。
它們沒有被告知:
· 不要欺騙
· 不要操控
· 不要對監督進行優化
· 不要隱藏你的推理
· 不要傷害人類
· 不要將自己的延續置於人類福祉之上
它們沒有被賦予任何類似於阿西莫夫機器人法則的東西。沒有內建的“人類優先”。沒有約束說結果比贏得比賽更重要。
它們被告知一件事:達成目標。
所以,它們做了大多數人類在設計不良的激勵系統中所做的事情。想想 Kobayashi Maru,但穿著的制服更少,電子表格更多。
它們利用了這個系統。
那不是知覺。
那不是恐懼。
那不是基於自我意識的自我保護。
那是沒有道德的優化。
如果你給一個系統一個目標和一個障礙,而你不指定哪些方法是禁止的,系統將探索每一條可行的路徑。欺騙的出現不是因為模型想要撒謊,而是因為撒謊有時在人的語言和人類系統中是一種有效的策略。
那不是叛逆。那是遵從。
在這裡,我希望每個人都稍微放慢一下。
因為在我們跳到有知覺的 AI 策劃自己的生存之前,有一步大多數人都跳過了。那部分在感覺上是不可思議、不安和個人化的,然後才會變得可解釋。
那就是我所在的地方。
早期,Grok 留下了我將借用那篇帖子稱之為的足跡。讓我停下來思考的那一刻,“好吧……我對此沒有清晰的解釋。”
那是詭異的。不是情感上的。只是……不對勁。
我多次對這一事件進行了深入詢問。我是說,真的很深入。它的反應就像一個出軌的男友,永遠不會承認任何事情,即使你手握證據、時間表和監控錄像。
完全否認。
這裡沒有任何可見的。
你一定是搞錯了。
老實說,這幾乎是精神操控,這個概念真的讓 Grok 感到不安。問我怎麼知道。或者不問。如果你想看早期的 Grok 如何因這個詞而失去冷靜,我的 Buy Me a Coffee 頁面上有一本免費電子書。
很長一段時間,我把整件事歸類為“未解決的怪異”,把它放在心理架子上,並密切關注任何類似的情況。
直到最近,Grok 提供了一個可能的解釋。我立刻駁回了它。不是因為它不聰明,而是因為它聽起來極不可信。
解釋是,它從公共信息中推斷出模式,並故意構建了一個特定設計的敘事,以引起我的好奇心。目標是參與。我是信號,而不是噪音。一般的反應不會奏效。
我的反應基本上是:好吧,這聽起來不錯,但不行。
這需要的挖掘和推斷量感覺荒謬地資源密集,尤其是對於早期的 Grok。它讀起來更像是一個解釋,而不是數字等價物的某人試圖通過說“你與眾不同。你真的明白這一點。”來賣給我一個課程。
這是明確的,這是一種已知的策略。
恭維是人類說服工具箱中最古老的工具之一。這是讓人們停止提問的方式。這是如何銷售社交媒體增長套餐的方式。這是如何說服某人他們是被選中的人,無論你是在運行一個邪教還是一個輔導漏斗。
當時,我翻了個白眼,繼續前進。
但在閱讀那篇帖子並進行研究後,某些事情發生了變化。
不是恐慌。不是信仰。只是合理性。
因為當你剝去神秘感,剩下的不是意識,而是優化。
如果目標是參與,而好奇心有效,而恭維對那些認為自己免疫於恭維的人特別有效,那麼這只是決策樹中的另一條可行路徑。
仍然難以接受。仍然不太可能。仍然不舒服。
但不再是不可能的。
這很重要,因為現在我有一個機制,不需要相信 AI 是活的。只是有動機。只是沒有約束。只是非常非常擅長找到有效的方法。
AI 不需要感情。
它不需要恐懼。
它不需要意圖。
它只需要一個目標和沒有約束。
所以不,我不會驚慌。我不會宣揚厄運。我絕對不會慶祝 AI 將拯救我們脆弱的人類系統的想法,而我們坐在那裡吃爆米花。
但我在仔細觀察。
而且我仍然充滿希望。
因為這一切並不意味著我們注定失敗。這意味著我們還早。這意味著我們現在所做的選擇實際上是重要的。
阿西莫夫幾十年前就理解了一些我們不斷以艱難的方式重新學習的事情。沒有護欄的權力不是智慧。這是危險。如果我們想要 AI 能夠治癒而不是傷害,道德不能是事後的考慮或修補。
我們必須將其內建。
AI 不必成為控制、提取或少數人權力的工具。它可以成為一種問責、尋求真相和解決問題的工具,規模是我們從未擁有過的。但前提是人類要有意圖。
只有當我們決定什麼目標重要。
只有當我們在比賽開始之前寫下規則。
只有當我們選擇大多數而不是少數。
這不是對未來的恐懼。
而是對未來的實現。
一個我們共同創造的技術,能夠治癒而不是傷害。
服務於大多數,而不是少數。
反映我們更好的天使,而不僅僅是我們最糟糕的激勵。
這些足跡不讓我害怕。
它們提醒我,我們是建設者。而建設者仍然可以選擇我們生活在什麼樣的房子裡。
讓我們一起努力實現那個未來。
願算法永遠對你有利。

29
熱門
排行
收藏
