一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Chamath: 在人工智能中，你需要关注的两个术语是 Prefill 和 Decode “在接下来的几年里，我认为你会听到这两个术语很多。” “第一个术语是 prefill，接下来是 decode。” “Prefill 和 decode 是模型思考的两种非常不同的方式，以及模型如何通过你问它的问题的过程。” “所以当你向 AI 发送提示时，发生的事情是模型处理它。这被称为阅读阶段或 prefill。” “它一次性读取你的整个提示。然后它进行一系列数学运算，计算所有单词之间的关系，并将它们存储在临时内存中。” “问题是这实际上是计算密集型的。因此，它需要巨大的强制计算。而 Nvidia 的 GPU 在这里表现出色。” “他们的架构设计用于大规模并行处理，这使得它们在处理这些长提示时非常出色。” “所以问题只会越来越大，Nvidia 完全主导了这个领域。” “但是下一个阶段，这个关键阶段，解码阶段，是写作阶段，对吧？” “所以模型开始生成响应，你问它一个问题，它的响应是一个一个 token。” “然后为了选择下一个 token，选择下一个单词，它必须回顾它已经说过的所有内容，以免出现幻觉。” “问题是这在内存带宽上受到极大的限制。” “在我们的架构中，很久以前，我们从一开始就做出了这些设计决策。” “所以我们采取了一种非常不同的架构方法，我们采用了一种非常保守的工艺技术。我们没有推动物理的边界。” ...