熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
小型模型也可以是良好的推理者。
這是問題和提出的解決方案:
小型模型在對教師的 CoT 跟蹤進行 SFT 時,表現往往會變差。
這篇論文將失敗歸因於分佈不一致,並引入了反向推測解碼(RSD):在生成跟蹤的過程中,教師提出標記,但學生僅接受在其自身分佈下足夠可能的標記。
結果是對學生友好的跟蹤,保持正確性,同時使逐步驚訝度可控。
RSD 使用拒絕抽樣來選擇正確的、對齊的跟蹤,並將其與未解決項目的 UPFT 前綴配對:訓練 RSD 找到正確解決方案的完整跟蹤,並訓練前 128 個標記在未找到解決方案的情況下。
當應用於 Qwen3-0.6B 時,直接蒸餾 s1K-1.1 推理跟蹤數據使平均性能下降 20.5%,而同一模型在 RSD 生成的推理跟蹤上訓練則實現了 4.9% 的顯著改善。
論文:

熱門
排行
收藏