SGLang + Miles: Rollout Routing Replay(R3)が正式に稼働中です!🎉 SGLangとMilesがMoEモデルでの安定強化学習トレーニング用にRollout Routing Replay(R3)をサポートしたことをお知らせできることを嬉しく思います! 強化学習(RL)によるMoEモデルの訓練は非常に不安定で、しばしば壊滅的な崩壊を招いています。問題を。推論エンジンとトレーニングエンジン間の不整合のルーティング。R3は、推論中に専門家のルーティング決定を記録し、トレーニング中に再再生することでこれを解決します。 その影響は大きいです。推論ルーティングの決定を再利用することで訓練と推論の不一致を大幅に減らし、訓練の崩壊を防ぎます。R3はDataParallel Attentionとすべての並列処理戦略による完全な分散トレーニングサポートを提供しており、対応モデルにはQwen3-30B-A3B、deepseek_v2などが含まれます。 ぜひ試してみて、結果を教えてください!🚀