khác với việc huấn luyện trước, việc huấn luyện sau bằng RL là một quá trình rất chủ động và tham gia. bạn phải theo dõi các lần triển khai, điều chỉnh phần thưởng, thêm/bỏ/xử lý các nhiệm vụ liên tục nếu bạn muốn có kết quả tốt.