a differenza del pre-addestramento, il post-addestramento RL è un processo molto attivo e coinvolto. Devi monitorare costantemente i rollouts, modificare le ricompense, aggiungere/rimuovere/modificare i compiti se vuoi ottenere buoni risultati.