S pouhými několika řádky kódu Fengova (@fengyao1909) navržená oprava – použití vzorkování důležitosti na politiku chování – vyřešila nestabilitu tréninku v mém případě (oat). Věřím, že výsledek lze zobecnit i na jiné rámce RL. Skvělá práce, Fengu!
16,33K