w przeciwieństwie do wstępnego szkolenia, RL po szkoleniu to bardzo aktywny proces. Musisz monitorować rollouts, dostosowywać nagrody, ciągle dodawać/usuwać/modyfikować zadania, jeśli chcesz uzyskać dobre wyniki.