Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: O Rollout Routing Replay (R3) já está ativo! 🎉
Estamos entusiasmados em anunciar que SGLang e Miles agora suportam o Rollout Routing Replay (R3) para treinamento estável de aprendizado por reforço em modelos MoE!
Treinar modelos MoE com RL tem sido notoriamente instável, muitas vezes levando a colapsos catastróficos. O problema? Inconsistência de roteamento entre os motores de inferência e treinamento. O R3 corrige isso gravando decisões de roteamento de especialistas durante a inferência e reproduzindo-as durante o treinamento.
O impacto é significativo: discrepância entre treinamento e inferência drasticamente reduzida ao reutilizar decisões de roteamento de inferência, prevenindo colapsos no treinamento. O R3 tem suporte completo para treinamento distribuído com DataParallel Attention e todas as estratégias de paralelismo, os modelos suportados incluem Qwen3-30B-A3B, deepseek_v2, etc.
Experimente e nos diga os seus resultados! 🚀

Top
Classificação
Favoritos
