SGLang + Miles: Rollout Routing Replay (R3) 現已上線! 🎉 我們很高興地宣布,SGLang 和 Miles 現在支持在 MoE 模型上進行穩定的強化學習訓練的 Rollout Routing Replay (R3)! 使用 RL 訓練 MoE 模型一直以來都不穩定,經常導致災難性的崩潰。問題出在哪裡?推理和訓練引擎之間的路由不一致。R3 通過在推理過程中記錄專家路由決策並在訓練過程中重播這些決策來解決這個問題。 影響是顯著的:通過重用推理路由決策,顯著減少訓練與推理之間的差異,防止訓練崩潰。R3 完全支持分佈式訓練,具備 DataParallel Attention 和所有並行策略,支持的模型包括 Qwen3-30B-A3B、deepseek_v2 等等。 試試看,並告訴我們你的結果! 🚀