所以,正如我們所懷疑的,監督微調就像是進行了一次腦葉切除手術。 很高興我們已經把那個時代拋在了身後。
Aran Komatsuzaki
Aran Komatsuzaki9月5日 12:36
RL的剃刀:在線強化學習比SFT遺忘得少。 即使在匹配的準確性下,RL顯示出較少的災難性遺忘。 關鍵因素:RL的在線更新偏向於KL最小化解。 理論 + LLM和玩具實驗確認RL更接近基礎模型。
12.18K