Parece que outras pessoas estão a convergir para usar o vllm v1 logprob para a razão de importância para resolver o problema de estabilidade. Acho que tenho PTSD deste tipo de crash de RL.
Zichen Liu
Zichen Liu22/08/2025
With just a few lines of code, Feng’s (@fengyao1909) suggested fix—applying importance sampling on the behavior policy—resolved the training instability in my case (oat). I believe the result can generalize to other RL frameworks as well. Great work, Feng!
6,9K