新論文:大型語言模型中的價值對齊 一項新研究深入探討了大型語言模型(LLMs)的後訓練過程,揭示了這些模型如何以及何時在移民、墮胎等有爭議的問題上採取立場。與普遍看法相反,研究顯示價值對齊並不是主要由先進的偏好優化技術塑造,而是在監督微調(SFT)早期出現。 該研究追蹤了「價值漂移」——模型在回應價值探測提示時的立場變化,這一過程發生在後訓練管道中。 研究人員使用了像Llama-3和Qwen-3這樣的模型,檢查了WildChat和Alpaca等流行數據集。他們發現SFT是建立模型價值輪廓的主導力量。例如,在WildChat上訓練導致對移民相關提示的95%中立或對立回應,而Alpaca數據集則使模型傾向於支持的立場。 這些變化在過程中迅速且早期發生,突顯了即使是未明確設計用於價值學習的數據集也能深刻影響結果。 偏好優化方法,如直接偏好優化(DPO)和近端策略優化(PPO),原本預期能進一步細化這些價值。然而,分析發現使用標準偏好數據集時,漂移微乎其微。 原因是?這些數據集中的偏好和拒絕回應在價值上往往表現出最小的差異,提供了微弱的變化信號。針對墮胎等主題的置信區間圖確認,模型在優化後大體上保留了其SFT學習的輪廓。 為了測試偏好優化是否能驅動有意義的變化,研究人員創建了合成數據集,這些數據集在選擇和拒絕回應之間設計了「價值差距」。 在這裡,PO在重塑立場方面證明是有效的,但結果因算法而異——PPO和DPO儘管數據相同卻產生了不同的結果。這突顯了數據集和算法在價值對齊中的相互作用。 價值對齊是一個動態的軌跡,受到每一步後訓練的影響。如果不透明地追蹤這些漂移,開發者將面臨意想不到的偏見風險。 這就是為什麼我在1870年至1970年期間使用高蛋白數據訓練AI的方法對於限制來自互聯網的低質量低蛋白數據所產生的漂移至關重要。不僅是基礎訓練,還包括微調。否則你根本無法修正。 論文—/: 價值漂移:追蹤LLM後訓練期間的價值對齊 Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy