DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

SGLang + Miles: Rollout Routing Replay (R3) ist jetzt live! 🎉 Wir freuen uns, bekannt zu geben, dass SGLang und Miles jetzt Rollout Routing Replay (R3) für stabiles Reinforcement Learning Training auf MoE-Modellen unterstützen! Das Training von MoE-Modellen mit RL war notorisch instabil und führte oft zu katastrophalen Zusammenbrüchen. Das Problem? Routing-Inkonsistenz zwischen Inferenz- und Trainings-Engines. R3 behebt dies, indem es die Experten-Routing-Entscheidungen während der Inferenz aufzeichnet und sie während des Trainings wieder abspielt. Die Auswirkungen sind erheblich: drastisch reduzierte Diskrepanz zwischen Training und Inferenz durch Wiederverwendung der Inferenz-Routing-Entscheidungen, was einen Trainingszusammenbruch verhindert. R3 unterstützt vollständiges verteiltes Training mit DataParallel Attention und allen Parallelisierungsstrategien, unterstützte Modelle sind unter anderem Qwen3-30B-A3B, deepseek_v2 usw. Probieren Sie es aus und lassen Sie uns Ihre Ergebnisse wissen! 🚀

Top

Ranking

Favoriten