热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
似乎其他人都倾向于使用 vllm v1 logprob 作为重要性比率来解决稳定性问题。
我觉得我对这种类型的强化学习崩溃有创伤后应激障碍。

8月22日 23:35
仅用几行代码,Feng(@fengyao1909)建议的修复方法——在行为策略上应用重要性采样——解决了我案例中的训练不稳定性(oat)。我相信这个结果也可以推广到其他强化学习框架。干得好,Feng!

5.33K
热门
排行
收藏