与预训练不同,RL后训练是一个非常积极参与的过程。如果你想要好的结果,就必须不断监控回合,调整奖励,添加/删除/修改任务。