他の人は、安定性の問題を修正するために重要度にvllm v1 logprobを使用することに収束しているようです。 私はこのタイプのrlクラッシュでPTSDを起こしていると思います
Zichen Liu
Zichen Liu20時間前
わずか数行のコードで、Feng(@fengyao1909)が提案した修正(行動ポリシーに重要度サンプリングを適用)は、私の場合(oat)のトレーニングの不安定性を解決しました。結果は他のRLフレームワークにも一般化できると思います。よくやった、フェン!
4.83K