似乎其他人都傾向於使用 vllm v1 logprob 作為重要性比率來解決穩定性問題。 我覺得我對這種類型的強化學習崩潰有創傷後應激障礙。
Zichen Liu
Zichen Liu21 小時前
僅用幾行程式碼,Feng(@fengyao1909)建議的修復方法——在行為策略上應用重要性採樣——解決了我案例中的訓練不穩定性(oat)。我相信這個結果也可以推廣到其他強化學習框架。幹得好,Feng!
5.32K