RLのRazor:オンポリシーRLはSFTよりも忘れが少ない。 一致した精度でも、RLは壊滅的な忘却をあまり示さない 重要な要因:RLのポリシーに関する更新は、KL最小限のソリューションに偏っています 理論 + LLM と玩具の実験により、RL がベース モデルに近い状態にあることが確認されました
103.1K