RL的剃刀:在线强化学习比SFT遗忘得少。 即使在匹配的准确性下,RL显示出较少的灾难性遗忘。 关键因素:RL的在线更新偏向于KL最小化解。 理论 + LLM和玩具实验确认RL更接近基础模型。
103.1K