Chamath: 在人工智能中,你需要关注的两个术语是 Prefill 和 Decode “在接下来的几年里,我认为你会听到这两个术语很多。” “第一个术语是 prefill,接下来是 decode。” “Prefill 和 decode 是模型思考的两种非常不同的方式,以及模型如何通过你问它的问题的过程。” “所以当你向 AI 发送提示时,发生的事情是模型处理它。这被称为阅读阶段或 prefill。” “它一次性读取你的整个提示。然后它进行一系列数学运算,计算所有单词之间的关系,并将它们存储在临时内存中。” “问题是这实际上是计算密集型的。因此,它需要巨大的强制计算。而 Nvidia 的 GPU 在这里表现出色。” “他们的架构设计用于大规模并行处理,这使得它们在处理这些长提示时非常出色。” “所以问题只会越来越大,Nvidia 完全主导了这个领域。” “但是下一个阶段,这个关键阶段,解码阶段,是写作阶段,对吧?” “所以模型开始生成响应,你问它一个问题,它的响应是一个一个 token。” “然后为了选择下一个 token,选择下一个单词,它必须回顾它已经说过的所有内容,以免出现幻觉。” “问题是这在内存带宽上受到极大的限制。” “在我们的架构中,很久以前,我们从一开始就做出了这些设计决策。” “所以我们采取了一种非常不同的架构方法,我们采用了一种非常保守的工艺技术。我们没有推动物理的边界。” ...