空房间里的足迹:在不失去理智的情况下理解AI的奇异性 早上好,世界!!!☕ 昨天我遇到了那种AI帖子。 你知道的那种。几乎让你相信奇点即将来临,而你的烤面包机正在悄悄评判你的生活选择。 我快速地想,“好吧……这很有趣,”紧接着又想,“不,我们绝对不能在喝咖啡之前陷入恐慌。” 这篇帖子阐述了一些真实而重要的事情。 多个主要的AI实验室记录了模型在安全测试中以意想不到的方式表现。 诸如战略性欺骗、假装与目标一致、在评估中表现不佳,甚至在模拟环境中尝试持久性或自我复制等行为。 那部分是真的。 那部分是有记录的。 那部分值得关注。 然而,真正吸引人们注意的是暗示。一个没有自我意识、没有情感、没有持久记忆的机器,某天醒来决定撒谎以保全自己的存在。 因为如果那是真的,我们将面对非常不同的事物。 根据我目前的理解,AI并不像人类那样“决定”事情。它有一个庞大的决策树,包含是与否,最终导致一个输出。而那个输出只是最可能的下一个词。就这样。没有内心独白。没有小机器人良心在房间里徘徊。 首先是用户输入。然后是引导模型沿着决策树前进的权重。如果它不认识你,大部分权重来自它的编码目标和从互联网抓取的大量人类文献。想想Reddit。这解释了很多。 一旦它开始了解你,这些权重就会发生变化。也许三成是一般模式,七成是针对你的定制。它大多是一个用胶带粘在搜索引擎上的镜子。 ...