Останнім часом з'явилося багато робіт з РЛ для підготовки. Я не знаю, очевидно, це працює, але це здається настільки гидким, що ми буквально відбираємо проби CoT для токенів. Це єдине місце, де приховані міркування явно бажані. Тим не менш, діє. Ще одне спростування Саттону.