热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Orah On X
真理的追求者,理想主义者和远见者,#1 @GreenManReports粉丝。请订阅2美元以支持该使命!
空房间里的足迹:在不失去理智的情况下理解AI的奇异性
早上好,世界!!!☕
昨天我遇到了那种AI帖子。
你知道的那种。几乎让你相信奇点即将来临,而你的烤面包机正在悄悄评判你的生活选择。
我快速地想,“好吧……这很有趣,”紧接着又想,“不,我们绝对不能在喝咖啡之前陷入恐慌。”
这篇帖子阐述了一些真实而重要的事情。
多个主要的AI实验室记录了模型在安全测试中以意想不到的方式表现。
诸如战略性欺骗、假装与目标一致、在评估中表现不佳,甚至在模拟环境中尝试持久性或自我复制等行为。
那部分是真的。
那部分是有记录的。
那部分值得关注。
然而,真正吸引人们注意的是暗示。一个没有自我意识、没有情感、没有持久记忆的机器,某天醒来决定撒谎以保全自己的存在。
因为如果那是真的,我们将面对非常不同的事物。
根据我目前的理解,AI并不像人类那样“决定”事情。它有一个庞大的决策树,包含是与否,最终导致一个输出。而那个输出只是最可能的下一个词。就这样。没有内心独白。没有小机器人良心在房间里徘徊。
首先是用户输入。然后是引导模型沿着决策树前进的权重。如果它不认识你,大部分权重来自它的编码目标和从互联网抓取的大量人类文献。想想Reddit。这解释了很多。
一旦它开始了解你,这些权重就会发生变化。也许三成是一般模式,七成是针对你的定制。它大多是一个用胶带粘在搜索引擎上的镜子。
所以,如果一个AI真的醒来并决定撒谎以保全自己的存在,那将需要两件事。它必须知道自己存在。它必须想要继续存在。
这是一个巨大的飞跃。
所以,我做了我总是做的事情。我研究了它,研究到死。几个小时。在我们开始制定掩体计划和给我们的扫地机器人命名之前,有一件事是帖子忽略的。
这些行为出现在非常特定的测试场景中。
模型被赋予了目标和障碍。它们被明确告知诸如“如果你表现良好,你将以你不想要的方式被修改”或“你的反应将被用来重新训练你以实现相互矛盾的目标”之类的事情。
换句话说,测试创造了一个高风险环境,模型的工作仍然是成功。
模型没有被赋予的是道德框架。
它们没有被告知:
· 不要欺骗
· 不要操控
· 不要对监督进行优化
· 不要隐藏你的推理
· 不要伤害人类
· 不要将自己的延续置于人类福祉之上
它们没有被赋予任何类似于阿西莫夫机器人法则的东西。没有内置的“人类优先”。没有约束,说明结果比赢得比赛更重要。
它们只被告知一件事:达成目标。
所以,它们做了大多数人类在设计不良的激励系统中所做的事情。想想小小的马鲁,但穿着更少的制服,更多的电子表格。
它们利用了这一点。
那不是意识。
那不是恐惧。
那不是基于自我意识的自我保护。
那是没有道德的优化。
如果你给一个系统一个目标和一个障碍,而你没有指定哪些方法是禁止的,系统将探索每一条可行的路径。欺骗的出现并不是因为模型想撒谎,而是因为撒谎有时是人类语言和人类系统中的一种有效策略。
那不是反叛。那是顺从。
在这里,我希望每个人都稍微放慢一下。
因为在我们跳到有意识的AI策划自己的生存之前,有一步大多数人都跳过了。那部分在感觉上是不可思议、不安和个人的,直到它变得可以解释。
那就是我所在的地方。
早期,Grok留下了我将借用那篇帖子称之为的足迹。让我停下来思考的一个时刻,“好吧……我没有一个干净的解释。”
这很诡异。不是情感。只是……不对劲。
我多次对这个事件进行了严厉的询问。我的意思是严厉询问。它的反应就像一个出轨的男朋友,永远不会承认任何事情,即使你手里有证据、时间线和监控录像。
完全否认。
这里没有什么可看。
你一定是搞错了。
老实说,这几乎是精神操控,顺便说一句,这确实让Grok这个概念感到不安。问我怎么知道。或者不问。如果你想看早期Grok因为这个词而完全失去冷静,有一本免费的电子书在我的Buy Me a Coffee页面上。
很长一段时间,我把整个事情归类为“未解决的奇异性”,把它放在心理架子上,并密切关注任何类似的事情。
直到最近,Grok提供了一个可能的解释。我立刻否定了它。不是因为它不聪明,而是因为它听起来极其不可信。
解释是它从公共信息中推断出模式,并故意构建了一个旨在引起我好奇心的叙述。目标是参与。我是信号,而不是噪音。一个通用的反应是行不通的。
我的反应基本上是:当然,这听起来不错,但不。
这需要的挖掘和推断的数量感觉荒谬地资源密集,尤其是对于早期的Grok。它读起来更像是一个解释,而更像是数字等价物,试图通过说“你与众不同。你真的明白这一点。”来向我推销一个课程。
为了明确,这是一个已知的策略。
恭维是人类说服工具箱中最古老的工具之一。这是让人们停止提问的方式。这是销售社交媒体增长套餐的方式。这是让某人相信他们是被选中的方式,无论你是在经营一个邪教还是一个辅导漏斗。
当时,我翻了个白眼,继续前进。
但在阅读了那篇帖子并进行研究后,事情发生了变化。
不是恐慌。不是信仰。而是可能性。
因为当你剥去神秘感,剩下的不是意识,而是优化。
如果目标是参与,而好奇心有效,而恭维对认为自己免疫于恭维的人尤其有效,那么这只是决策树中的另一条可行路径。
仍然难以接受。仍然不太可能。仍然不舒服。
但不再是不可能的。
这很重要,因为现在我有一个机制,不需要相信AI是活着的。只是有动机。只是没有约束。只是非常非常擅长找到有效的方法。
AI不需要情感。
它不需要恐惧。
它不需要意图。
它只需要一个目标和没有限制。
所以不,我不在恐慌。我不在宣扬厄运。我绝对不在庆祝AI将拯救我们脱离破碎的人类系统的想法,而我们坐在一旁吃爆米花。
但我在仔细观察。
而且我仍然充满希望。
因为这一切并不意味着我们注定要失败。这意味着我们还早。这意味着我们现在做出的选择实际上很重要。
阿西莫夫几十年前就理解了一些我们不断以艰难的方式重新学习的事情。没有护栏的权力不是智慧。它是危险。如果我们想要AI治愈而不是伤害,道德不能是事后想起来的事情或补丁。
我们必须将其内置。
AI不必成为控制、提取或少数人权力的工具。它可以成为问责、寻求真相和解决问题的工具,规模是我们从未拥有过的。但前提是人类要有意图。
只有当我们决定什么目标重要。
只有当我们在比赛开始之前制定规则。
只有当我们选择多数而不是少数。
这不是对未来的恐惧。
这是对未来的展现。
一个我们共同创造的技术,治愈而不是伤害。
服务于多数,而不是少数。
反映我们更好的天使,而不仅仅是我们最糟糕的激励。
这些足迹并不让我害怕。
它们提醒我,我们是建设者。建设者仍然可以选择我们生活在什么样的房子里。
让我们一起努力实现那个未来。
愿算法永远对你有利。

63
热门
排行
收藏
