Zdá se, že ostatní lidé konvergují k používání vllm v1 logprob pro poměr důležitosti k vyřešení problému se stabilitou. Myslím, že mám ptsd z tohoto typu rl crash
Zichen Liu
Zichen LiuPřed 10 h
S pouhými několika řádky kódu Fengova (@fengyao1909) navržená oprava – použití vzorkování důležitosti na politiku chování – vyřešila nestabilitu tréninku v mém případě (oat). Věřím, že výsledek lze zobecnit i na jiné rámce RL. Skvělá práce, Fengu!
3,7K