За допомогою всього кількох рядків коду запропоноване Фенгом (@fengyao1909) виправлення — застосування вибірки важливості до політики поведінки — вирішило нестабільність навчання в моєму випадку (oat). Я вважаю, що результат можна узагальнити і на інші фреймворки RL. Відмінна робота, Фенг!
27,64K