所以,正如我们所怀疑的,监督微调就像是进行了一次脑叶切除手术。 很高兴我们已经把那个时代抛在了身后。
Aran Komatsuzaki
Aran Komatsuzaki9月5日 12:36
RL的剃刀:在线强化学习比SFT遗忘得少。 即使在匹配的准确性下,RL显示出较少的灾难性遗忘。 关键因素:RL的在线更新偏向于KL最小化解。 理论 + LLM和玩具实验确认RL更接近基础模型。
12.18K