SGLang + Miles: Rollout Routing Replay (R3) 现已上线! 🎉 我们很高兴地宣布,SGLang 和 Miles 现在支持用于 MoE 模型的稳定强化学习训练的 Rollout Routing Replay (R3)! 使用 RL 训练 MoE 模型一直以来都不稳定,常常导致灾难性的崩溃。问题出在哪里?推理和训练引擎之间的路由不一致。R3 通过在推理过程中记录专家路由决策并在训练过程中重放这些决策来解决这个问题。 影响显著:通过重用推理路由决策,显著减少训练与推理之间的差异,防止训练崩溃。R3 完全支持分布式训练,具有 DataParallel Attention 和所有并行策略,支持的模型包括 Qwen3-30B-A3B、deepseek_v2 等等。 试试看,告诉我们你的结果! 🚀