Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) is nu live! 🎉
We zijn enthousiast om aan te kondigen dat SGLang en Miles nu Rollout Routing Replay (R3) ondersteunen voor stabiele reinforcement learning training op MoE-modellen!
Het trainen van MoE-modellen met RL is berucht onstabiel geweest, wat vaak leidt tot catastrofale ineenstorting. Het probleem? Routing inconsistentie tussen inferentie- en trainingsengines. R3 lost dit op door expert routingbeslissingen tijdens inferentie vast te leggen en deze tijdens training opnieuw af te spelen.
De impact is significant: de discrepantie tussen training en inferentie wordt dramatisch verminderd door inferentieroutingbeslissingen opnieuw te gebruiken, waardoor training-inzinking wordt voorkomen. R3 heeft volledige ondersteuning voor gedistribueerde training met DataParallel Attention en alle parallelle strategieën, ondersteunde modellen zijn onder andere Qwen3-30B-A3B, deepseek_v2, enz.
Probeer het uit en laat ons je resultaten weten! 🚀

Boven
Positie
Favorieten
