一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

小型模型也可以是良好的推理者。這是問題和提出的解決方案：小型模型在對教師的 CoT 跟蹤進行 SFT 時，表現往往會變差。這篇論文將失敗歸因於分佈不一致，並引入了反向推測解碼（RSD）：在生成跟蹤的過程中，教師提出標記，但學生僅接受在其自身分佈下足夠可能的標記。結果是對學生友好的跟蹤，保持正確性，同時使逐步驚訝度可控。 RSD 使用拒絕抽樣來選擇正確的、對齊的跟蹤，並將其與未解決項目的 UPFT 前綴配對：訓練 RSD 找到正確解決方案的完整跟蹤，並訓練前 128 個標記在未找到解決方案的情況下。當應用於 Qwen3-0.6B 時，直接蒸餾 s1K-1.1 推理跟蹤數據使平均性能下降 20.5%，而同一模型在 RSD 生成的推理跟蹤上訓練則實現了 4.9% 的顯著改善。論文：