與預訓練不同,強化學習後訓練是一個非常積極參與的過程。如果你想要好的結果,你必須不斷監控回合,調整獎勵,添加/移除/修改任務。