ao contrário do pré-treinamento, o pós-treinamento em RL é um processo muito ativo e envolvente. você tem que estar monitorando as execuções, ajustando recompensas, adicionando/removendo/modificando tarefas constantemente se quiser bons resultados.