僅用幾行程式碼,Feng(@fengyao1909)建議的修復方法——在行為策略上應用重要性採樣——解決了我案例中的訓練不穩定性(oat)。我相信這個結果也可以推廣到其他強化學習框架。幹得好,Feng!
23.61K