仅用几行代码,Feng(@fengyao1909)建议的修复方法——在行为策略上应用重要性采样——解决了我案例中的训练不稳定性(oat)。我相信这个结果也可以推广到其他强化学习框架。干得好,Feng!
23.61K