в отличие от предварительного обучения, RL постобучение — это очень активный и вовлеченный процесс. вам нужно постоянно следить за развертываниями, настраивать вознаграждения, добавлять/удалять/модифицировать задачи, если вы хотите получить хорошие результаты.