看到这一切汇聚在一起真是太酷了,@brendanh0gan 主导的工作令人难以置信,整体上这是一个极其详细的配方,说明了在 OOD 任务中打造专业模型所需的条件,而前沿模型在这方面确实很挣扎。 论文/权重/数据/代码在 brendan 的帖子中 :)
Brendan Hogan
Brendan Hogan8月13日 22:42
介绍 qqWen:我们完全开源的项目(代码+权重+数据+详细技术报告),用于全栈微调(预训练+SFT+RL),一系列模型(1.5b、3b、7b、14b 和 32b),用于一种名为 Q 的小众金融编程语言。 所有细节如下!
18.25K