事前トレーニングとは異なり、RL 事後トレーニングは非常に活発なプロセスです。良い結果を望むなら、ロールアウトを監視し、報酬を微調整し、タスクを常に追加/削除/変更する必要があります。