Малые модели также могут быть хорошими рассуждателями. Вот проблема и предложенное решение: Малые модели часто показывают худшие результаты, когда вы обучаете их на следах учителя CoT. В этой статье неудача связывается с распределительной несоответствием и вводит Обратное Спекулятивное Декодирование (RSD): во время генерации следов учитель предлагает токены, но студент принимает только те токены, которые достаточно вероятны в соответствии с его собственным распределением. Результат — следы, удобные для студента, которые сохраняют правильность, при этом управляя удивлением на каждом шаге. RSD использует отбор с отбраковкой для выбора правильных, согласованных следов и сочетает их с префиксами UPFT для нерешенных задач: обучайте полные следы, где RSD находит правильное решение, и обучайте первые 128 токенов, где это не так. При применении к Qwen3-0.6B, прямая дистилляция данных следов рассуждений s1K-1.1 ухудшает среднюю производительность на 20.5%, в то время как та же модель, обученная на следах рассуждений, сгенерированных RSD, достигает значительных улучшений на 4.9%. Статья: