¡SGLang + Miles: Rollout Routing Replay (R3) ya está en vivo! 🎉 ¡Estamos emocionados de anunciar que SGLang y Miles ahora soportan Rollout Routing Replay (R3) para el entrenamiento estable de aprendizaje por refuerzo en modelos MoE! Entrenar modelos MoE con RL ha sido notoriamente inestable, a menudo llevando a colapsos catastróficos. ¿El problema? Inconsistencia en el enrutamiento entre los motores de inferencia y entrenamiento. R3 soluciona esto grabando decisiones de enrutamiento de expertos durante la inferencia y reproduciéndolas durante el entrenamiento. El impacto es significativo: se reduce drásticamente la discrepancia entre entrenamiento e inferencia al reutilizar decisiones de enrutamiento de inferencia, previniendo el colapso del entrenamiento. R3 tiene soporte completo para entrenamiento distribuido con DataParallel Attention y todas las estrategias de paralelismo, los modelos soportados incluyen Qwen3-30B-A3B, deepseek_v2, etc. ¡Pruébalo y cuéntanos tus resultados! 🚀