したがって、私たちが疑ったように、監視下での微調整はロボトミーでした。 あの時代を後にしてよかったです。
Aran Komatsuzaki
Aran Komatsuzaki9月5日 12:36
RLのRazor:オンポリシーRLはSFTよりも忘れが少ない。 一致した精度でも、RLは壊滅的な忘却をあまり示さない 重要な要因:RLのポリシーに関する更新は、KL最小限のソリューションに偏っています 理論 + LLM と玩具の実験により、RL がベース モデルに近い状態にあることが確認されました
12.18K