SGLang + Miles: O Rollout Routing Replay (R3) já está ativo! 🎉 Estamos entusiasmados em anunciar que SGLang e Miles agora suportam o Rollout Routing Replay (R3) para treinamento estável de aprendizado por reforço em modelos MoE! Treinar modelos MoE com RL tem sido notoriamente instável, muitas vezes levando a colapsos catastróficos. O problema? Inconsistência de roteamento entre os motores de inferência e treinamento. O R3 corrige isso gravando decisões de roteamento de especialistas durante a inferência e reproduzindo-as durante o treinamento. O impacto é significativo: discrepância entre treinamento e inferência drasticamente reduzida ao reutilizar decisões de roteamento de inferência, prevenindo colapsos no treinamento. O R3 tem suporte completo para treinamento distribuído com DataParallel Attention e todas as estratégias de paralelismo, os modelos suportados incluem Qwen3-30B-A3B, deepseek_v2, etc. Experimente e nos diga os seus resultados! 🚀