- 你是 - 一个对 LLM 工作一无所知的随机计算机科学毕业生 - 厌倦了人们用大词和小 GPU 来设限 - 决定全心投入修行模式 - 两年后我可以在聚会上解释注意力机制并毁掉它们 - 这是禁忌知识地图 - 从上到下,LLMs *实际上* 是如何工作的 - 从头开始 - 文本 → 令牌 - 令牌 → 嵌入 - 你现在是 4D 空间中的一个浮点数 - 相应地调整心态 - 位置嵌入: - 绝对:"我在位置 5" - 旋转(RoPE):"我是一条正弦波" - 借口:"我根据距离像个仇恨者一样缩放注意力" - 注意力是你所需要的一切 - 自注意力:"我可以关注谁?" - 多头:"如果我并行做 8 次会怎样?" - QKV:查询,键,值 - 听起来像个加密骗局 - 实际上是智能的核心 - 变换器: - 接收你的输入 - 通过注意力层进行处理...