Till skillnad från förträning är RL-efterträning en mycket aktiv process. Du måste övervaka lanseringar, justera belöningar, lägga till/ta bort/ändra uppgifter hela tiden om du vill ha bra resultat.