一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

RL的剃刀：在线强化学习比SFT遗忘得少。即使在匹配的准确性下，RL显示出较少的灾难性遗忘。关键因素：RL的在线更新偏向于KL最小化解。理论 + LLM和玩具实验确认RL更接近基础模型。

103.1K