O Prime-rl agora tem amplo suporte para MoE tanto para RL quanto para SFT, estamos treinando o modelo 100B + com ele Temos suporte para: * Qwen3 a3-30b * Série GLM e Moonlight * Adicionando a série GPT OSS enquanto falamos Acabamos reescrevendo a maior parte do código de modelagem para fazê-lo funcionar com o Torch Compile enquanto ainda é compatível com o ecossistema Hugging Face
Também adicionamos suporte para ajustar a série glm com o Muon, pois descobrimos que ele torna o treinamento muito mais estável no modelo de pré-treinamento do múon. Isso se correlaciona bem com a descoberta no papel ao luar. Estamos usando a implementação da Microsoft em dion
Em termos de desempenho, estamos no mesmo nível do treinamento torchtitan moe (principalmente porque tomamos o torchtitan como referência para otimizar nosso código). Atingimos 20% de mfu no 100B glm air moe a 65K seq len treinando em 512 h200 gpu com múon. Em termos de paralelismo, descobrimos que o torchtitan EP não é muito otimizado para MoEs esparsos e não produziu nenhuma aceleração significativa com tamanho de lote grande o suficiente. Parece que podemos saturar o desempenho do kernel do grupo mm para MoEs muito rápido e que fazer um melhor balanceamento de carga com EP produz um retorno decrescente por causa do bloqueio de todos para todos. Acreditamos que há muito espaço para melhorias em toda a pilha de código aberto para MoEs. Há uma forte necessidade de kernels otimizados para tornar os MoEs mais rápidos e ocultar a comunicação e a computação de uma maneira muito refinada. Parece ser ainda mais necessário para a Blackwell
ah também a maior parte do trabalho em moe foi feito por @jackminong
18,04K