a diferencia del preentrenamiento, el postentrenamiento por refuerzo es un proceso muy activo e involucrado. tienes que estar monitoreando las implementaciones, ajustando las recompensas, añadiendo/eliminando/modificando tareas constantemente si quieres buenos resultados.