热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
所以,正如我们所怀疑的,监督微调就像是进行了一次脑叶切除手术。
很高兴我们已经把那个时代抛在了身后。

9月5日 12:36
RL的剃刀:在线强化学习比SFT遗忘得少。
即使在匹配的准确性下,RL显示出较少的灾难性遗忘。
关键因素:RL的在线更新偏向于KL最小化解。
理论 + LLM和玩具实验确认RL更接近基础模型。

12.18K
热门
排行
收藏