熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
所以,正如我們所懷疑的,監督微調就像是進行了一次腦葉切除手術。
很高興我們已經把那個時代拋在了身後。

9月5日 12:36
RL的剃刀:在線強化學習比SFT遺忘得少。
即使在匹配的準確性下,RL顯示出較少的災難性遺忘。
關鍵因素:RL的在線更新偏向於KL最小化解。
理論 + LLM和玩具實驗確認RL更接近基礎模型。

12.18K
熱門
排行
收藏