一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

小模型也可以成为很好的推理者。以下是问题和建议的解决方案：当您在教师 CoT 跟踪上 SFT 小型模型时，它们通常会变得更糟。本文将失败归咎于分布错位，并引入了反向推测解码（RSD）：在跟踪生成过程中，教师提出了标记，但学生只接受在自己的分布下具有足够概率的标记。结果是学生友好的跟踪，保持正确性，同时保持逐步惊谬的可管理性。 RSD 使用拒绝采样来选择正确的、对齐的迹线，并将其与未解决项目的 UPFT 前缀配对：在 RSD 找到正确解决方案的情况下训练完整迹线，在找不到的情况下训练前 128 个标记。当应用于Qwen3-0.6B时，直接蒸馏s1K-1.1推理轨迹数据的平均性能下降了20.5%，而在RSD生成的推理轨迹上训练的同一模型实现了4.9%的有意义的改进。纸：