ao contrário do pré-treinamento, o pós-treinamento RL é um processo envolvido muito ativo. Você precisa monitorar os lançamentos, ajustar recompensas, adicionar/remover/modificar tarefas constantemente se quiser bons resultados.