in tegenstelling tot pretraining is RL posttraining een zeer actieve betrokken proces. je moet rollouts monitoren, beloningen aanpassen, taken constant toevoegen/verwijderen/wijzigen als je goede resultaten wilt.