SGLang + Miles: Rollout Routing Replay (R3) jest już dostępny! 🎉 Z radością ogłaszamy, że SGLang i Miles teraz wspierają Rollout Routing Replay (R3) dla stabilnego treningu uczenia przez wzmocnienie na modelach MoE! Trening modeli MoE z RL był notorycznie niestabilny, często prowadząc do katastrofalnego załamania. Problem? Niespójność routingu między silnikami wnioskowania a treningu. R3 naprawia to, rejestrując decyzje dotyczące routingu ekspertów podczas wnioskowania i odtwarzając je podczas treningu. Wpływ jest znaczący: dramatycznie zmniejszona rozbieżność między treningiem a wnioskowaniem dzięki ponownemu wykorzystaniu decyzji dotyczących routingu wnioskowania, co zapobiega załamaniu treningu. R3 ma pełne wsparcie dla rozproszonego treningu z DataParallel Attention i wszystkimi strategiami równoległości, wspierane modele to m.in. Qwen3-30B-A3B, deepseek_v2, itd. Wypróbuj to i daj nam znać o swoich wynikach! 🚀