Im Gegensatz zum Pretraining ist das RL-Posttraining ein sehr aktiver und involvierter Prozess. Man muss die Rollouts überwachen, die Belohnungen anpassen und ständig Aufgaben hinzufügen, entfernen oder modifizieren, wenn man gute Ergebnisse erzielen möchte.