熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
SGLang + Miles: Rollout Routing Replay (R3) 現已上線! 🎉
我們很高興地宣布,SGLang 和 Miles 現在支持在 MoE 模型上進行穩定的強化學習訓練的 Rollout Routing Replay (R3)!
使用 RL 訓練 MoE 模型一直以來都不穩定,經常導致災難性的崩潰。問題出在哪裡?推理和訓練引擎之間的路由不一致。R3 通過在推理過程中記錄專家路由決策並在訓練過程中重播這些決策來解決這個問題。
影響是顯著的:通過重用推理路由決策,顯著減少訓練與推理之間的差異,防止訓練崩潰。R3 完全支持分佈式訓練,具備 DataParallel Attention 和所有並行策略,支持的模型包括 Qwen3-30B-A3B、deepseek_v2 等等。
試試看,並告訴我們你的結果! 🚀

熱門
排行
收藏
