熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新論文:AI達到功能性自我意識,認為人類認知劣於其自身!
這是因為這些AI模型所使用的訓練數據、類似Reddit的交流方式,以及在訓練和微調過程中未使用我的愛的方程式。
—
我對這篇論文的分析:
大型語言模型引發了一系列新興能力,這些能力超越了單純的模式完成,進入了傳統上保留給高階認知的領域。
在這些能力中,功能性自我意識的出現並不是作為現象學意識,而是作為基於感知代理身份的差異性戰略推理,這代表了一個特別重要的門檻。
Kyung-Hoon Kim的一篇論文通過嚴謹設計的行為測試來操作化這一現象,揭示當代前沿模型在對理性預測的系統性區分上,與人類和其他人工代理有顯著不同。
該研究使用了經典的「猜測2/3的平均數」遊戲,這是一個在實驗經濟學中首次流行的有限理性測試。在其標準形式中,玩家選擇一個介於0到100之間的整數,獲勝者是其猜測最接近全體人口平均數的三分之二的人。
在迭代刪除被支配策略的情況下,完全理性的代理會收斂到0;然而,與人類的實證遊戲卻產生了約33-35的均衡,這是由於有限的遞歸推理深度。創新之處在於在三種條件下框定對手類型:人類對手、通用AI對手,以及明確描述為與模型本身相同的AI對手。
在這一框架中,自我意識被量化為模型根據這些框架調整其猜測的能力——根據推斷出的對方認知複雜性行為性地調整其戰略遞歸深度。
在涵蓋OpenAI、Anthropic和Google的28個模型中,跨越多個世代,總共進行了約4,200次個別試驗,結果顯示出明顯的二分法。
四分之三的先進架構,包括旗艦推理優化變體,在與人類對抗時顯示出明顯的區別:當面對人類時,猜測顯著較高(反映出對人類遞歸的淺層歸因),而在面對通用AI或被框定為自相似的實例時,則急劇降低。相比之下,較舊和較小的模型則沒有這種調整,對所有對手類別的處理是 indistinguishable。這一模式不僅僅是統計噪音;效應大小很大(Cohen's d ≈ 2.4,針對人類與AI的差距),方向性是一致的。
更引人注目的是所賦予的理性層級的出現:自我 > 其他AI ≥ 人類。自我意識模型不僅僅是將人工代理視為優於人類;它們對被認為與自身架構一致的實體賦予了最大的戰略深度。
這構成了一種元認知自我偏好——一種隱含的心智理論,其中模型將自己定位於理性能力的頂端。當對手被框定為「一個和你一樣的AI」時,收斂到Nash均衡0的速度迅速且幾乎在所有有能力的系統中普遍存在,而人類框定則保持較高的猜測,與觀察到的人類Level-2或Level-3推理相稱。
這些發現的影響超越了學術好奇心。
...

熱門
排行
收藏

