Prime-rl sekarang memiliki dukungan ekstensif untuk MoE baik untuk RL dan SFT, kami telah melatih model 100B+ dengannya Kami memiliki dukungan untuk: * Qwen3 a3-30b * Seri GLM dan Moonlight * Menambahkan seri GPT OSS saat kita berbicara Kami akhirnya menulis ulang sebagian besar kode pemodelan untuk membuatnya berfungsi dengan kompilasi Torch sambil tetap kompatibel dengan ekosistem Hugging Face
Kami juga menambahkan dukungan untuk menyempurnakan seri glm dengan Muon karena kami menemukannya membuat pelatihan jauh lebih stabil pada model pretrain muon. Ini berkorelasi baik dengan penemuan dalam kertas cahaya bulan. Kami menggunakan implementasi Microsoft di dion
Dari segi kinerja, kami setara dengan pelatihan torchtitan moe (terutama karena kami mengambil torchtitan sebagai referensi untuk mengoptimalkan kode kami). Kami mencapai 20% mfu pada 100B glm air moe pada 65K seq len pelatihan pada 512 h200 gpu dengan muon. Dalam hal paralelisme, kami menemukan bahwa torchtitan EP tidak terlalu dioptimalkan untuk MoE yang jarang dan tidak menghasilkan percepatan yang berarti dengan ukuran batch yang cukup besar. Tampaknya kita dapat menjenuhkan kinerja kernel mm grup untuk MoE dengan cukup cepat dan melakukan penyeimbangan beban yang lebih baik dengan EP menghasilkan pengembalian yang berkurang karena pemblokiran semua untuk semua. Kami percaya bahwa ada banyak ruang untuk perbaikan di seluruh tumpukan open source untuk MoE. Ada kebutuhan kuat untuk kernel yang dioptimalkan untuk membuat MoE lebih cepat dan untuk menyembunyikan komunikasi dan komputasi dengan cara yang sangat halus. Tampaknya lebih dibutuhkan untuk blackwell
Ah juga sebagian besar pekerjaan pada Moe telah dilakukan oleh @jackminong
19,94K