Недавно было много статей по RL для предварительного обучения. Я не знаю, очевидно, что это работает, но это кажется таким неприятным, что мы буквально выбираем CoT для токенов. Это единственное место, где латентное рассуждение явно желательно. Тем не менее, это действительно так. Еще один ответ Саттону.