Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
У співпраці з @AMD та @IBM ми @ZyphraAI ділимося базою ZAYA1! Перша великомасштабна модель на інтегрованому апаратному, програмному та мережевому стеку AMD. ZAYA1 використовує нову архітектуру MoE від Zyphra з активними 760 млн і 8,3 млрд параметрів загалом.
Технічна стаття та інше нижче👇

PR:
Технічний блог:
Технічна стаття:
Обіймаючи обличчя:
Архітектурно ZAYA1 слідує нашому рецепту «MoE++»:
- Стиснена згорткова увага (CCA) []
- Новий маршрутизатор ZAYA1
- Масштабування залишків на рівні з вивченими вентилями
Вони дають кращі криві масштабування (за FLOP і на параметр), ніж стандартний MoE.

Маршрутизатор ZAYA1 замінює традиційні лінійні маршрутизатори на:
- Залишковий потік вниз проєктів
- Застосовує експоненціальне усереднення глибини (EDA) для змішування інформації між шарами
- 3-шаровий MLP на експерта
- Використовує схему балансування, натхненну теорією керування, щоб тримати експертів одночасно зайнятими та спеціалізованими
Рецепт тренувань:
- 14T токенів загалом
- 3 фази: веб-орієнтоване переднавчання → фаза з великим навантаженням на математику/код/структурований → довгий контекст + міркування під час тренування
- З часом навчальна програма змінюється у бік щільних STEM + даних міркування
- Розширення контексту з 4k → 32k з допомогою контекстно-паралельного CCA

Наш кластер, розміщений у @IBMcloud, складається з 128 обчислювальних вузлів, кожен з яких містить:
- 8 GPU MI300X, взаємопов'язаних з InfinityFabric
- 8 Міжвузлові з'єднання Pollara зі швидкістю 400 Гбіт/с
- 2 процесори Intel Xeon Platinum 8570
Вузли з'єднані у дворівневій топології лише рейок.

Ми провели спільне проєктування, щоб скоротити час навчання:
- Ядра для ітерації Newton-Schulz від RMSNorm + Muon
- Aegis, наша автоматизована система відмовостійкості для забезпечення високого часу безперервної роботи
- Розподілене контрольне пунктування та переформування
- Нові схеми паралелізму для CP та розподілених мюонів

База ZAYA1 демонструє сильні результати порівняно з подібними моделями, що робить її міцною основою для нашого наступного післятренінгу.

Незважаючи на активні параметри лише 760M, база ZAYA1 перевершує щільні моделі, такі як Llama-3-8B, і конкурує з Qwen3-4B та Gemma3-12B у математичних та кодових бенчмарках. У високих pass@k умовах базова модель наближається до продуктивності спеціалізованих моделей мислення.

50,85K
Найкращі
Рейтинг
Вибране

