一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

如何更有效地訓練小型推理模型？這是許多 AI 開發者面臨的問題。強化學習微調通常會遇到瓶頸，特別是對於 1–2B 的模型。我認為 DeepSearch 在這方面提供了一個非常清晰的方法。它將蒙特卡羅樹搜索（MCTS）的概念從推理階段移入訓練循環中。這一轉變解鎖了更好的探索和更高效的學習。以下是我從論文中整理的筆記：這個循環涉及四個關鍵概念：訓練期間的搜索：在測試時不僅僅進行搜索，MCTS 在強化學習訓練期間運行。一個局部的 UCT 選擇器對兄弟節點進行排名，而一個全局的邊界評分器根據父節點的價值、熵和深度選擇有前景的葉子。從勝利和自信的錯誤中學習：如果沒有找到正確的解決方案，模型仍然可以通過監督自信的錯誤路徑（最低熵的錯誤）來學習。正確的路徑在更新期間保持非負，這有助於逐步的信用分配。用 Tree-GRPO 穩定強化學習：他們用節點級的 q 值、僅均值的正規化和柔性裁剪策略來改進 PPO 風格的目標。這避免了獎勵爆炸，同時保持梯度的信息性。保持高效：為了減少浪費的計算，DeepSearch 過濾到一個硬性問題子集，驗證後緩存解決方案，並在已知答案的情況下跳過完整搜索。所有這些改進都導致了強勁的結果。 DeepSearch-1.5B 在 AIME/AMC 基準測試中達到 62.95%，超越了頂級的 Nemotron 基準，同時僅使用了約 330 GPU 小時。相比之下，正常的強化學習訓練即使使用 1,800+ GPU 小時也會達到較低的瓶頸。論文：我認為這篇論文提供了一個實用的配方，可以突破小型推理 LMs 的瓶頸： • 將搜索移入訓練，而不僅僅是推理 • 監督正確和錯誤的路徑 • 使用全局優先級進行更智能的探索 • 緩存和過濾以保持高效率