DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

SGLang + Miles: Rollout Routing Replay (R3) è ora attivo! 🎉 Siamo entusiasti di annunciare che SGLang e Miles ora supportano il Rollout Routing Replay (R3) per l'addestramento stabile del reinforcement learning sui modelli MoE! L'addestramento dei modelli MoE con RL è stato notoriamente instabile, portando spesso a un collasso catastrofico. Il problema? L'incoerenza del routing tra i motori di inferenza e di addestramento. R3 risolve questo problema registrando le decisioni di routing degli esperti durante l'inferenza e riproducendole durante l'addestramento. L'impatto è significativo: riduzione drammatica della discrepanza tra addestramento e inferenza riutilizzando le decisioni di routing dell'inferenza, prevenendo il collasso dell'addestramento. R3 ha pieno supporto per l'addestramento distribuito con DataParallel Attention e tutte le strategie di parallelismo, i modelli supportati includono Qwen3-30B-A3B, deepseek_v2, ecc. Provalo e facci sapere i tuoi risultati! 🚀

Principali

Ranking

Preferiti