У співпраці з @AMD та @IBM ми @ZyphraAI ділимося базою ZAYA1! Перша великомасштабна модель на інтегрованому апаратному, програмному та мережевому стеку AMD. ZAYA1 використовує нову архітектуру MoE від Zyphra з активними 760 млн і 8,3 млрд параметрів загалом. Технічна стаття та інше нижче👇
PR: Технічний блог: Технічна стаття: Обіймаючи обличчя:
Архітектурно ZAYA1 слідує нашому рецепту «MoE++»: - Стиснена згорткова увага (CCA) [] - Новий маршрутизатор ZAYA1 - Масштабування залишків на рівні з вивченими вентилями Вони дають кращі криві масштабування (за FLOP і на параметр), ніж стандартний MoE.
Маршрутизатор ZAYA1 замінює традиційні лінійні маршрутизатори на: - Залишковий потік вниз проєктів - Застосовує експоненціальне усереднення глибини (EDA) для змішування інформації між шарами - 3-шаровий MLP на експерта - Використовує схему балансування, натхненну теорією керування, щоб тримати експертів одночасно зайнятими та спеціалізованими
Рецепт тренувань: - 14T токенів загалом - 3 фази: веб-орієнтоване переднавчання → фаза з великим навантаженням на математику/код/структурований → довгий контекст + міркування під час тренування - З часом навчальна програма змінюється у бік щільних STEM + даних міркування - Розширення контексту з 4k → 32k з допомогою контекстно-паралельного CCA
Наш кластер, розміщений у @IBMcloud, складається з 128 обчислювальних вузлів, кожен з яких містить: - 8 GPU MI300X, взаємопов'язаних з InfinityFabric - 8 Міжвузлові з'єднання Pollara зі швидкістю 400 Гбіт/с - 2 процесори Intel Xeon Platinum 8570 Вузли з'єднані у дворівневій топології лише рейок.
Ми провели спільне проєктування, щоб скоротити час навчання: - Ядра для ітерації Newton-Schulz від RMSNorm + Muon - Aegis, наша автоматизована система відмовостійкості для забезпечення високого часу безперервної роботи - Розподілене контрольне пунктування та переформування - Нові схеми паралелізму для CP та розподілених мюонів
База ZAYA1 демонструє сильні результати порівняно з подібними моделями, що робить її міцною основою для нашого наступного післятренінгу.
Незважаючи на активні параметри лише 760M, база ZAYA1 перевершує щільні моделі, такі як Llama-3-8B, і конкурує з Qwen3-4B та Gemma3-12B у математичних та кодових бенчмарках. У високих pass@k умовах базова модель наближається до продуктивності спеціалізованих моделей мислення.
50,85K