Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) Sekarang Ditayangkan! 🎉
Kami dengan senang hati mengumumkan bahwa SGLang dan Miles sekarang mendukung Rollout Routing Replay (R3) untuk pelatihan pembelajaran penguatan yang stabil pada model MoE!
Melatih model MoE dengan RL terkenal tidak stabil, sering menyebabkan keruntuhan bencana. Masalahnya? Inkonsistensi perutean antara inferensi dan mesin pelatihan. R3 memperbaikinya dengan merekam keputusan perutean ahli selama inferensi dan memutarnya ulang selama pelatihan.
Dampaknya signifikan: secara dramatis mengurangi perbedaan pelatihan-inferensi dengan menggunakan kembali keputusan perutean inferensi, mencegah keruntuhan pelatihan. R3 memiliki dukungan pelatihan terdistribusi penuh dengan DataParallel Attention dan semua strategi paralelisme, model yang didukung termasuk Qwen3-30B-A3B, deepseek_v2, dll.
Cobalah dan beri tahu kami hasil Anda! 🚀

Teratas
Peringkat
Favorit
