Маленькі моделі також можуть бути хорошими міркуваннями. Ось проблема та запропоноване рішення: Маленькі моделі часто погіршуються, коли ви наносите їх на траси CoT вчителя. У цій статті пояснюється невдача неузгодженістю розподілу та вводиться зворотне спекулятивне декодування (RSD): під час генерації трас учитель пропонує токени, але учень приймає лише ті токени, які є достатньо ймовірними при його власному розподілі. Результатом є зручні для учнів траси, які зберігають правильність, зберігаючи при цьому керованість покрокового сюрпризу. RSD використовує вибірку відхилення для вибору правильних, вирівняних трасувань і поєднує її з префіксами UPFT для невирішених елементів: тренує повні траси, де RSD знаходить правильне рішення, і тренує перші 128 токенів там, де це не потрібно. При застосуванні до Qwen3-0.6B пряма дистиляція даних слідів міркувань s1K-1.1 погіршує середню продуктивність на 20,5%, тоді як та сама модель, навчена на слідах міркувань, згенерованих RSD, досягає значних поліпшень на 4,9%. Папір: