Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) jest już dostępny! 🎉
Z radością ogłaszamy, że SGLang i Miles teraz wspierają Rollout Routing Replay (R3) dla stabilnego treningu uczenia przez wzmocnienie na modelach MoE!
Trening modeli MoE z RL był notorycznie niestabilny, często prowadząc do katastrofalnego załamania. Problem? Niespójność routingu między silnikami wnioskowania a treningu. R3 naprawia to, rejestrując decyzje dotyczące routingu ekspertów podczas wnioskowania i odtwarzając je podczas treningu.
Wpływ jest znaczący: dramatycznie zmniejszona rozbieżność między treningiem a wnioskowaniem dzięki ponownemu wykorzystaniu decyzji dotyczących routingu wnioskowania, co zapobiega załamaniu treningu. R3 ma pełne wsparcie dla rozproszonego treningu z DataParallel Attention i wszystkimi strategiami równoległości, wspierane modele to m.in. Qwen3-30B-A3B, deepseek_v2, itd.
Wypróbuj to i daj nam znać o swoich wynikach! 🚀

Najlepsze
Ranking
Ulubione
