Зараз Prime-rl має широку підтримку MoE як для RL, так і для SFT, ми тренували модель 100B+ з її допомогою Ми підтримуємо щодо: * Qwen3 a3-30b * Серія GLM і Moonlight * Додавання серії GPT OSS під час розмови У підсумку ми переписуємо більшу частину коду моделювання, щоб він працював з компіляцією Torch, залишаючись при цьому сумісним з екосистемою Hugging Face
Ми також додали підтримку для точного налаштування серії glm з Muon, оскільки ми виявили, що це робить тренування більш стабільними на моделі muon pretrain. Це добре корелює з пошуком у місячному світлі паперу. Ми використовуємо реалізацію Microsoft в dion
За продуктивністю ми знаходимося на одному рівні з тренуванням torchtitan moe (головним чином тому, що ми взяли torchtitan як орієнтир для оптимізації нашого коду) . Ми досягаємо 20% mfu на 100B glm air moe при 65K seq len тренування на 512 h200 gpu з мюоном. З точки зору паралелізму ми з'ясували, що EP torchtitan не так сильно оптимізований для розріджених МОЕ, і він не дав якогось значущого прискорення при досить великому розмірі партії. Схоже, що ми можемо досить швидко наситити продуктивність групового мм ядра для MoEs, і що краще балансування навантаження з EP дає спадну віддачу через блокування все до всіх. Ми вважаємо, що є багато можливостей для вдосконалення в стеку з відкритим вихідним кодом для MoEs. Існує велика потреба в оптимізованих ядрах, щоб зробити MoEs швидшими та приховати зв'язок та обчислення у дуже тонкий спосіб. Здається, він ще більше потрібен для блеквелла
А ще більша частина роботи по МО була виконана @jackminong
19,93K