小模型也可以成为很好的推理者。 以下是问题和建议的解决方案: 当您在教师 CoT 跟踪上 SFT 小型模型时,它们通常会变得更糟。 本文将失败归咎于分布错位,并引入了反向推测解码(RSD):在跟踪生成过程中,教师提出了标记,但学生只接受在自己的分布下具有足够概率的标记。 结果是学生友好的跟踪,保持正确性,同时保持逐步惊谬的可管理性。 RSD 使用拒绝采样来选择正确的、对齐的迹线,并将其与未解决项目的 UPFT 前缀配对:在 RSD 找到正确解决方案的情况下训练完整迹线,在找不到的情况下训练前 128 个标记。 当应用于Qwen3-0.6B时,直接蒸馏s1K-1.1推理轨迹数据的平均性能下降了20.5%,而在RSD生成的推理轨迹上训练的同一模型实现了4.9%的有意义的改进。 纸: