トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しい論文: 大規模言語モデルにおける価値の整合性
新しい研究では、LLM のトレーニング後のプロセスを掘り下げ、これらのモデルが移民や中絶などの物議を醸す問題に対していつ、どのようにスタンスを採用するかを明らかにしています。一般に信じられていることに反して、この研究は、値の整合性が主に高度な選好最適化技術によって形成されるのではなく、教師あり微調整 (SFT) の早期に現れることを示しています。
この研究では、「価値のドリフト」、つまりトレーニング後のパイプライン全体で価値調査のプロンプトに応答する際のモデルのスタンスの変化を追跡しています。
研究者らは、Llama-3 や Qwen-3 などのモデルを使用して、WildChat や Alpaca などの一般的なデータセットを調べました。彼らは、SFTがモデルの価値プロファイルを確立する上で支配的な力であることを発見しました。たとえば、WildChat でのトレーニングでは、移民関連のプロンプトに対して 95% が中立または反対の回答が得られましたが、Alpaca データセットではモデルが支持的なスタンスに傾きました。
これらの変化はプロセスの早い段階で急速に発生し、価値学習用に明示的に設計されていないデータセットであっても、結果に大きな影響を与える可能性があることを浮き彫りにしています。
直接選好最適化 (DPO) や近位ポリシー最適化 (PPO) などの選好最適化手法により、これらの値をさらに改良することが期待されていました。しかし、分析により、標準的な選好データセットを使用した場合のドリフトは無視できる程度であることが判明しました。
その理由は?これらのデータセットの優先応答と拒否応答は、多くの場合、値の違いが最小限であり、変化の弱いシグナルを提供します。中絶などのトピックにわたる信頼区間プロットでは、モデルが最適化後もSFTで学習したプロファイルをほぼ保持していることが確認されました。
選好の最適化が意味のある変化を促進できるかどうかをテストするために、研究者らは、選択された回答と拒否された回答の間に設計された「価値のギャップ」を持つ合成データセットを作成しました。
ここでは、POはスタンスの再形成に効果的であることが証明されましたが、結果はアルゴリズムによって異なり、PPOとDPOは同じデータにもかかわらず異なる結果をもたらしました。これは、値の整合におけるデータセットとアルゴリズムの相互作用を強調しています。
価値観の整合性は、トレーニング後のすべてのステップによって形成される動的な軌道です。これらのドリフトを透過的に追跡しないと、開発者は意図しないバイアスのリスクがあります。
これが、1870年から1970年までの非常に高タンパク質のデータでAIをトレーニングする私の方法が、インターネット上で見つかった低品質の低タンパク質データから生じるドリフトを制限するために不可欠である理由です。ベーストレーニングだけでなく、微調整も。そうでなければ修正することはできません。
紙—/:
価値のドリフト: LLM 後のトレーニング中の価値の整合性を追跡する
メハール・バティア、シュラヴァン・ナヤック、ガウラフ・カマス、マリウス・モスバッハ、カロル・スタンチャック、ヴェレッド・シュワルツ、シヴァ・レディ

トップ
ランキング
お気に入り

