Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡SGLang + Miles: Rollout Routing Replay (R3) ya está en vivo! 🎉
¡Estamos emocionados de anunciar que SGLang y Miles ahora soportan Rollout Routing Replay (R3) para el entrenamiento estable de aprendizaje por refuerzo en modelos MoE!
Entrenar modelos MoE con RL ha sido notoriamente inestable, a menudo llevando a colapsos catastróficos. ¿El problema? Inconsistencia en el enrutamiento entre los motores de inferencia y entrenamiento. R3 soluciona esto grabando decisiones de enrutamiento de expertos durante la inferencia y reproduciéndolas durante el entrenamiento.
El impacto es significativo: se reduce drásticamente la discrepancia entre entrenamiento e inferencia al reutilizar decisiones de enrutamiento de inferencia, previniendo el colapso del entrenamiento. R3 tiene soporte completo para entrenamiento distribuido con DataParallel Attention y todas las estrategias de paralelismo, los modelos soportados incluyen Qwen3-30B-A3B, deepseek_v2, etc.
¡Pruébalo y cuéntanos tus resultados! 🚀

Parte superior
Clasificación
Favoritos
