Prime-rl má nyní rozsáhlou podporu MoE jak pro RL, tak pro SFT, trénovali jsme s ním model 100B+ Máme podporu pro: * Qwen3 a3-30b * Řada GLM a Moonlight * Přidáváme GPT OSS sérii, jak mluvíme Nakonec přepíšeme většinu kódu modelování, aby fungoval s Torch Compile a zároveň byl kompatibilní s ekosystémem Hugging Face
Přidali jsme také podporu pro vyladění řady glm pomocí Muonu, protože jsme zjistili, že je trénování na modelu předtrénování mionu stabilnější. To dobře koreluje s nálezem v měsíčním papíře. Používáme implementaci od Microsoftu v dionu
Z hlediska výkonu jsme na stejné úrovni jako torchtitan moe training (hlavně proto, že jsme torchtitanium vzali jako referenci pro optimalizaci našeho kódu). Dosahujeme 20 % mfu na 100B glm air moe při 65K seq len tréninku na 512 h200 GPU s mionem. Z hlediska paralelismu jsme zjistili, že torchtitan EP není až tak moc optimalizovaný pro řídké MoE a nepřinesl žádné smysluplné zrychlení s dostatečně velkou velikostí šarže. Zdá se, že výkon jádra skupiny mm pro MoE můžeme poměrně rychle nasytit a že lepší vyvažování zátěže s EP přináší klesající návratnost kvůli blokování all to all. Věříme, že v celém open source stacku pro MoE je velký prostor pro zlepšení. Existuje silná potřeba optimalizovaných jader, aby byly MoE rychlejší a aby se komunikace a výpočty skryly velmi jemnězrnným způsobem. Zdá se, že je ještě více potřebný pro Blackwell
Aha, také většinu práce na MOE odvedli @jackminong
19,93K