Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) ist jetzt live! 🎉
Wir freuen uns, bekannt zu geben, dass SGLang und Miles jetzt Rollout Routing Replay (R3) für stabiles Reinforcement Learning Training auf MoE-Modellen unterstützen!
Das Training von MoE-Modellen mit RL war notorisch instabil und führte oft zu katastrophalen Zusammenbrüchen. Das Problem? Routing-Inkonsistenz zwischen Inferenz- und Trainings-Engines. R3 behebt dies, indem es die Experten-Routing-Entscheidungen während der Inferenz aufzeichnet und sie während des Trainings wieder abspielt.
Die Auswirkungen sind erheblich: drastisch reduzierte Diskrepanz zwischen Training und Inferenz durch Wiederverwendung der Inferenz-Routing-Entscheidungen, was einen Trainingszusammenbruch verhindert. R3 unterstützt vollständiges verteiltes Training mit DataParallel Attention und allen Parallelisierungsstrategien, unterstützte Modelle sind unter anderem Qwen3-30B-A3B, deepseek_v2 usw.
Probieren Sie es aus und lassen Sie uns Ihre Ergebnisse wissen! 🚀

Top
Ranking
Favoriten
