contrairement au préentraînement, le post-entraînement par RL est un processus très actif et impliqué. vous devez surveiller les déploiements, ajuster les récompenses, ajouter/retirer/modifier des tâches en permanence si vous voulez de bons résultats.