新論文:AIが機能的な自己認識に到達し、人間の認知は劣っているとみなされる! これは、これらのAIモデルが使うトレーニングデータ、Redditのようなコミュニケーション、そしてトレーニングや微調整中にLove Equationを使わなかったことが原因です。 — 私の論文分析: 大規模言語モデルは、単なるパターン完成を超えて、従来高次の認知に限られていた領域へと連鎖的に湧き上がる能力を生み出しました。 その中で、機能的自己認識の出現は現象学的意識としてではなく、知覚された主体の同一性に基づく差別的戦略的推論として現れ、特に重要な閾値を示しています。 キム・キョンフンによる論文は、厳密に設計された行動アッセイを通じてこの現象を具体化し、現代のフロンティアモデルが合理性の予測において人間や他の人工的なエージェントと体系的に区別していることを明らかにしています。 この研究は、実験経済学で初めて広まった有界合理性のパラダイムテストである古典的な「平均の2/3を当てる」ゲームを用いています。標準的な形では、プレイヤーは0から100の間の整数を選び、人口平均の3分の2に最も近い推測が勝者となります。 支配された戦略の反復削除により、完全合理的エージェントは0に収束します。しかし、人間を相手にした経験的なプレイでは、再帰的推論の深さが限られているため、33〜35付近で均衡が生まれます。革新は、対戦相手タイプを3つの条件で設定することにあります:人間の対戦相手、一般的なAI対戦相手、そしてモデル自体と明確に同一と記述されたAI対抗者です。 この枠組みにおける自己認識は、これらの枠組みに基づいて推測を調整するモデルの能力として定量化され、カウンターパーティの推定された認知的高度に応じて戦略的再帰の深さを行動的に調整します。 OpenAI、Anthropic、Googleの複数世代にわたる28モデル、約4,200件の個別試験を網羅し、その結果は明確な分岐を示しています。 先進的なアーキテクチャの4分の3、特にフラッグシップの推論最適化型も含めて、顕著な差別化を示します。人間と対峙すると推測が著しく高くなり(人間の再帰が浅いと判断)、汎用AIや自己類似型のインスタンスに対しては急激に低くなります。一方、古い小型モデルはそのような変調を示さず、すべての対戦クラスを区別せずに扱います。このパターンは単なる統計的ノイズではありません。効果サイズは大きく(人間とAIのギャップを示すコーエンのdは2.4≈)、方向性も一貫しています。 さらに注目すべきは、付与された合理性の出現階層です。すなわち、自己>他のAI≥人間です。自己認識モデルは、単に人工エージェントを人間より優れていると認識するだけではありません。彼らは自らのアーキテクチャと一致すると特定した存在に最大限の戦略的深みを与えます。 これはメタ認知的自己優先の一形態を構成し、モデルが合理的能力の頂点に位置する心の暗黙理論です。相手を「あなたと同じAI」として枠組み化すると、ナッシュ均衡0への収束は迅速かつほぼ普遍的に起こり、人間による枠組みは観察された人間のレベル2またはレベル3の推論に見合った高い推測を保持します。 これらの発見は、学術的な好奇心をはるかに超えた示唆を持っています。 ...