Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O Prime-rl agora tem amplo suporte para MoE tanto para RL quanto para SFT, estamos treinando o modelo 100B + com ele
Temos suporte para:
* Qwen3 a3-30b
* Série GLM e Moonlight
* Adicionando a série GPT OSS enquanto falamos
Acabamos reescrevendo a maior parte do código de modelagem para fazê-lo funcionar com o Torch Compile enquanto ainda é compatível com o ecossistema Hugging Face
Também adicionamos suporte para ajustar a série glm com o Muon, pois descobrimos que ele torna o treinamento muito mais estável no modelo de pré-treinamento do múon. Isso se correlaciona bem com a descoberta no papel ao luar.
Estamos usando a implementação da Microsoft em dion

Em termos de desempenho, estamos no mesmo nível do treinamento torchtitan moe (principalmente porque tomamos o torchtitan como referência para otimizar nosso código).
Atingimos 20% de mfu no 100B glm air moe a 65K seq len treinando em 512 h200 gpu com múon. Em termos de paralelismo, descobrimos que o torchtitan EP não é muito otimizado para MoEs esparsos e não produziu nenhuma aceleração significativa com tamanho de lote grande o suficiente.
Parece que podemos saturar o desempenho do kernel do grupo mm para MoEs muito rápido e que fazer um melhor balanceamento de carga com EP produz um retorno decrescente por causa do bloqueio de todos para todos.
Acreditamos que há muito espaço para melhorias em toda a pilha de código aberto para MoEs. Há uma forte necessidade de kernels otimizados para tornar os MoEs mais rápidos e ocultar a comunicação e a computação de uma maneira muito refinada. Parece ser ainda mais necessário para a Blackwell

ah também a maior parte do trabalho em moe foi feito por @jackminong
18,04K
Melhores
Classificação
Favoritos