一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

RL的剃刀：在線強化學習比SFT遺忘得少。即使在匹配的準確性下，RL顯示出較少的災難性遺忘。關鍵因素：RL的在線更新偏向於KL最小化解。理論 + LLM和玩具實驗確認RL更接近基礎模型。

103.1K