某人在 r/LocalLLaMA 上从头开始训练了一个 LLM,使用的是 1800 年到 1875 年的伦敦文本 有趣的文物 > “电话”于 1876 年发明 > 数据集截止于 1875 年 > 所以当你提示“电话”时 > 模型将其视为 > 某种秘密外交设备 > 或神秘的装置 模型与数据 > 12 亿参数 > ~90GB 语料库 > 书籍、期刊、法律文件 > 宗教著作、医学论文 分词器 > 自定义分词器 > 在同一数据集上训练 训练 > ~182k 训练步骤 > 在租用的 H100 SXM 上训练