小型模型也可以是良好的推理者。 這是問題和提出的解決方案: 小型模型在對教師的 CoT 跟蹤進行 SFT 時,表現往往會變差。 這篇論文將失敗歸因於分佈不一致,並引入了反向推測解碼(RSD):在生成跟蹤的過程中,教師提出標記,但學生僅接受在其自身分佈下足夠可能的標記。 結果是對學生友好的跟蹤,保持正確性,同時使逐步驚訝度可控。 RSD 使用拒絕抽樣來選擇正確的、對齊的跟蹤,並將其與未解決項目的 UPFT 前綴配對:訓練 RSD 找到正確解決方案的完整跟蹤,並訓練前 128 個標記在未找到解決方案的情況下。 當應用於 Qwen3-0.6B 時,直接蒸餾 s1K-1.1 推理跟蹤數據使平均性能下降 20.5%,而同一模型在 RSD 生成的推理跟蹤上訓練則實現了 4.9% 的顯著改善。 論文: