学习如何理解大型语言模型(LLMs)的关键主题,只需不到2年的时间,如果你有计算机科学基础 > 词元化和嵌入 > 位置嵌入(绝对、绳索、阿里比) > 自注意力和多头注意力 > 变换器 > qkv > 采样参数:温度,top-k,top-p > kv缓存(以及为什么推理速度快) > 无限注意力和滑动窗口(长上下文技巧) > 专家混合(moe路由层) > 分组查询注意力 > 归一化和激活 > 预训练目标(因果、掩蔽等) > 微调与指令调优与强化学习从人类反馈(rlhf) > 缩放法则和模型容量曲线 额外主题: > 量化 - qat与ptq(ggufs,awq等) > 训练与推理堆栈(deepspeed,vllm等) > 合成数据生成