SGLang + Miles: Rollout Routing Replay (R3) is nu live! 🎉 We zijn enthousiast om aan te kondigen dat SGLang en Miles nu Rollout Routing Replay (R3) ondersteunen voor stabiele reinforcement learning training op MoE-modellen! Het trainen van MoE-modellen met RL is berucht onstabiel geweest, wat vaak leidt tot catastrofale ineenstorting. Het probleem? Routing inconsistentie tussen inferentie- en trainingsengines. R3 lost dit op door expert routingbeslissingen tijdens inferentie vast te leggen en deze tijdens training opnieuw af te spelen. De impact is significant: de discrepantie tussen training en inferentie wordt dramatisch verminderd door inferentieroutingbeslissingen opnieuw te gebruiken, waardoor training-inzinking wordt voorkomen. R3 heeft volledige ondersteuning voor gedistribueerde training met DataParallel Attention en alle parallelle strategieën, ondersteunde modellen zijn onder andere Qwen3-30B-A3B, deepseek_v2, enz. Probeer het uit en laat ons je resultaten weten! 🚀