似乎其他人都倾向于使用 vllm v1 logprob 作为重要性比率来解决稳定性问题。 我觉得我对这种类型的强化学习崩溃有创伤后应激障碍。
Zichen Liu
Zichen Liu8月22日 23:35
仅用几行代码,Feng(@fengyao1909)建议的修复方法——在行为策略上应用重要性采样——解决了我案例中的训练不稳定性(oat)。我相信这个结果也可以推广到其他强化学习框架。干得好,Feng!
5.33K