Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) è ora attivo! 🎉
Siamo entusiasti di annunciare che SGLang e Miles ora supportano il Rollout Routing Replay (R3) per l'addestramento stabile del reinforcement learning sui modelli MoE!
L'addestramento dei modelli MoE con RL è stato notoriamente instabile, portando spesso a un collasso catastrofico. Il problema? L'incoerenza del routing tra i motori di inferenza e di addestramento. R3 risolve questo problema registrando le decisioni di routing degli esperti durante l'inferenza e riproducendole durante l'addestramento.
L'impatto è significativo: riduzione drammatica della discrepanza tra addestramento e inferenza riutilizzando le decisioni di routing dell'inferenza, prevenendo il collasso dell'addestramento. R3 ha pieno supporto per l'addestramento distribuito con DataParallel Attention e tutte le strategie di parallelismo, i modelli supportati includono Qwen3-30B-A3B, deepseek_v2, ecc.
Provalo e facci sapere i tuoi risultati! 🚀

Principali
Ranking
Preferiti
