热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ahmad
人工智能研究员和软件工程师,肩负构建 DGX B200 GPU 集群的使命
- 你是
- 一个对 LLM 工作一无所知的随机计算机科学毕业生
- 厌倦了人们用大词和小 GPU 来设限
- 决定全心投入修行模式
- 两年后我可以在聚会上解释注意力机制并毁掉它们
- 这是禁忌知识地图
- 从上到下,LLMs *实际上* 是如何工作的
- 从头开始
- 文本 → 令牌
- 令牌 → 嵌入
- 你现在是 4D 空间中的一个浮点数
- 相应地调整心态
- 位置嵌入:
- 绝对:"我在位置 5"
- 旋转(RoPE):"我是一条正弦波"
- 借口:"我根据距离像个仇恨者一样缩放注意力"
- 注意力是你所需要的一切
- 自注意力:"我可以关注谁?"
- 多头:"如果我并行做 8 次会怎样?"
- QKV:查询,键,值
- 听起来像个加密骗局
- 实际上是智能的核心
- 变换器:
- 接收你的输入
- 通过注意力层进行处理
- 归一化,激活,重复
- 倾倒 logits
- 恭喜,你刚刚推断出一个令牌
- 最终输出的采样技巧:
- 温度:你想要多混乱
- top-k:只从前 K 个选项中采样
- top-p:从概率总和为 p 的最小令牌组中采样
- beam search?永远不要问关于 beam search 的事
- kv 缓存 = 作弊码
- 保存过去的键和值
- 让你跳过重新处理旧令牌
- 让一个 90B 模型从 "救命,我在融化" 变成 "实时天才"
- 长上下文技巧:
- 滑动窗口:像扫描仪一样移动注意力
- 无限注意力:稀疏关注,像激光狙击手
- 记忆层:像日记一样存储想法并具有读取权限
- 专家混合(MoE):
- 不是所有权重都重要
- 将令牌路由到不同的子网络
- 只激活 ~3B 参数中的 80B
- "只有专家回复" 的能量
- 分组查询注意力(GQA):
- 查询的键/值少于查询
- 提高推理速度
- "我想快而不傻"
- 归一化与激活:
- 层归一化,RMS 归一化
- gelu,silu,relu
- 它们听起来像失败的宝可梦
- 但它们使网络稳定和平滑
- 训练目标:
- 因果语言模型:猜测下一个单词
- 掩码语言模型:猜测缺失的单词
- 跨度预测,填空等
- LLMs 训练于猜测的艺术并变得擅长
- 调优风味:
- 微调:新的权重
- 指令调优:"请表现得有帮助"
- rlhf:来自氛围和点击诱饵提示的强化
- dpo:直接偏好优化——基本上是"做人类点赞的事"
- 扩展法则:
- 更多数据,更多参数,更多计算
- 损失可预测地下降
- 智能现在是预算的一项
- 奖励回合:
- 量化:
- 训练后量化(PTQ)
- 量化感知训练(QAT)
- 模型缩小,推理变得更便宜
- gguf,awq,gptq——都是带有额外调料的压缩文件
- 训练与推理堆栈:
- deepspeed,megatron,fschat——为了痛苦
- vllm,tgi,tensorRT-LLM——为了速度
- 每个人都有一个仓库
- 没有人阅读文档
- 合成数据:
- 生成你自己的训练集
- 模型自我教学
- 知识与幻觉的反馈循环
- 欢迎来到乌洛波洛斯时代
- 最终 Boss 秘密:
- 你可以在 ~2 年内学会 *所有这些*
- 不需要博士学位
- 不需要 10 倍计算
- 只需无尽的好奇心,好的书签和熬夜
- 精英们不希望你知道这些
- 但现在你知道了
- 选择行动
- 现在就开始
- 构建模型
466
热门
排行
收藏