小さな推論モデルをより効果的にトレーニングするにはどうすればよいでしょうか? これは、多くの AI 開発者が直面する問題です。一般に、RLの微調整は、特に1〜2Bモデルの場合、頭打ちになる傾向があります。 DeepSearchは、ここで非常にクリーンなアプローチを提供していると思います。推論時にモンテカルロツリー検索(MCTS)のアイデアを取り入れ、トレーニングループに移動します。この変化により、より良い探索とより効率的な学習が可能になります。 論文からの私のメモは次のとおりです。 このループには、次の 4 つの重要なアイデアが含まれます。 トレーニング中の検索: MCTS は、テスト時にのみ検索を実行するのではなく、RL トレーニング中に実行されます。ローカル UCT セレクターは兄弟をランク付けし、グローバル フロンティア スコアラーは、親の値、エントロピー、深さに基づいてツリー全体で有望な葉を選択します。 勝利と確信のある間違いの両方から学習する: 正しい解が見つからない場合でも、モデルは確信のある間違ったパス (最小エントロピーの間違い) を監視することで学習します。正しいパスは更新中も負のままであり、ステップレベルのクレジット割り当てに役立ちます。 Tree-GRPOによるRLの安定化:ノードレベルのq値、平均のみの正規化、およびソフトクリッピング戦略を使用して、PPOスタイルの目標を改良します。これにより、報酬の爆発を回避しながら、勾配を有益に保つことができます。 効率の維持: 無駄なコンピューティングを削減するために、DeepSearch は問題のハード サブセットにフィルタリングし、検証された解決策をキャッシュし、答えがすでにわかっている場合は完全な検索をスキップします。 これらの改善はすべて、強力な結果につながります。 DeepSearch-1.5B は AIME/AMC ベンチマークで 62.95% に達し、わずか ~330 GPU 時間しか使用せずに Nemotron のトップ ベースラインを上回りました。比較すると、通常のRLトレーニングは、1,800+ GPU時間でも低くなります。 紙: この論文は、小さな推論LMで停滞期を突破するための実用的なレシピを提供すると思います。 • 検索を推論だけでなくトレーニングに移行 • 正しい道と間違った道の両方を監督する • グローバル優先順位付けを使用して、よりスマートに探索する • 効率を高く保つためのキャッシュとフィルター