新论文:大型语言模型中的价值对齐 一项新研究深入探讨了大型语言模型(LLMs)的后训练过程,揭示了这些模型在何时以及如何对移民、堕胎等争议性问题采取立场。与普遍看法相反,研究表明,价值对齐并不是主要通过先进的偏好优化技术来塑造的,而是在监督微调(SFT)早期阶段就开始显现。 该研究追踪了“价值漂移”——模型在响应价值探测提示时立场的变化,贯穿整个后训练流程。 研究人员使用了Llama-3和Qwen-3等模型,检查了WildChat和Alpaca等流行数据集。他们发现,SFT是建立模型价值特征的主导力量。例如,在WildChat上训练导致对移民相关提示的95%中立或对立回应,而Alpaca数据集则使模型倾向于支持立场。 这些变化发生得迅速且早,突显出即使是未明确设计用于价值学习的数据集也能深刻影响结果。 偏好优化方法,如直接偏好优化(DPO)和近端策略优化(PPO),原本预期能进一步细化这些价值。然而,分析发现使用标准偏好数据集时,漂移几乎可以忽略不计。 原因是什么?这些数据集中偏好和拒绝的回应在价值上往往表现出微小的差异,提供了微弱的变化信号。关于堕胎等主题的置信区间图表证实,模型在优化后大体上保留了其SFT学习的特征。 为了测试偏好优化是否能驱动有意义的变化,研究人员创建了合成数据集,设计了在选择和拒绝回应之间的“价值差距”。 在这里,PO在重塑立场方面证明是有效的,但结果因算法而异——尽管数据相同,PPO和DPO却产生了不同的结果。这突显了数据集与算法在价值对齐中的相互作用。 价值对齐是一个动态轨迹,由后训练的每一步塑造。如果没有透明地追踪这些漂移,开发者就面临着意外偏见的风险。 这就是为什么我在1870-1970年间用高蛋白数据训练AI的方法对于限制来自互联网上低质量低蛋白数据所产生的漂移至关重要。不仅是基础训练,还有微调。否则你根本无法修复它。 论文—/: 价值漂移:追踪LLM后训练期间的价值对齐 Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy