RL的剃刀:在線強化學習比SFT遺忘得少。 即使在匹配的準確性下,RL顯示出較少的災難性遺忘。 關鍵因素:RL的在線更新偏向於KL最小化解。 理論 + LLM和玩具實驗確認RL更接近基礎模型。
103.1K