SGLang + Miles: Rollout Routing Replay (R3) теперь в эфире! 🎉 Мы рады сообщить, что SGLang и Miles теперь поддерживают Rollout Routing Replay (R3) для стабильного обучения с подкреплением на моделях MoE! Обучение моделей MoE с использованием RL было известным своей нестабильностью, часто приводя к катастрофическому коллапсу. В чем проблема? Несоответствие маршрутизации между движками вывода и обучения. R3 решает эту проблему, записывая решения экспертов по маршрутизации во время вывода и воспроизводя их во время обучения. Влияние значительное: значительно снижена разница между обучением и выводом за счет повторного использования решений маршрутизации вывода, предотвращая коллапс обучения. R3 полностью поддерживает распределенное обучение с DataParallel Attention и всеми стратегиями параллелизма, поддерживаемые модели включают Qwen3-30B-A3B, deepseek_v2 и др. Попробуйте и дайте нам знать о ваших результатах! 🚀