热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
小模型也可以成为很好的推理者。
以下是问题和建议的解决方案:
当您在教师 CoT 跟踪上 SFT 小型模型时,它们通常会变得更糟。
本文将失败归咎于分布错位,并引入了反向推测解码(RSD):在跟踪生成过程中,教师提出了标记,但学生只接受在自己的分布下具有足够概率的标记。
结果是学生友好的跟踪,保持正确性,同时保持逐步惊谬的可管理性。
RSD 使用拒绝采样来选择正确的、对齐的迹线,并将其与未解决项目的 UPFT 前缀配对:在 RSD 找到正确解决方案的情况下训练完整迹线,在找不到的情况下训练前 128 个标记。
当应用于Qwen3-0.6B时,直接蒸馏s1K-1.1推理轨迹数据的平均性能下降了20.5%,而在RSD生成的推理轨迹上训练的同一模型实现了4.9%的有意义的改进。
纸:

热门
排行
收藏