Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В сотрудничестве с @AMD и @IBM мы @ZyphraAI представляем ZAYA1-base! Первый крупномасштабный модель на интегрированной аппаратной, программной и сетевой платформе AMD. ZAYA1 использует новую архитектуру MoE от Zyphra с 760M активных и 8.3B общих параметров.
Технический документ и многое другое ниже👇

PR:
Технический блог:
Техническая работа:
Hugging Face:
Архитектурно, ZAYA1 следует нашему рецепту "MoE++":
- Сжатое свёрточное внимание (CCA) []
- Новый маршрутизатор ZAYA1
- Масштабирование остатков на уровне слоя с обучаемыми воротами
Это обеспечивает лучшие кривые масштабирования (на FLOP и на параметр), чем стандартный MoE.

Маршрутизатор ZAYA1 заменяет традиционные линейные маршрутизаторы на:
- Проектирование остаточного потока
- Применяет экспоненциальное усреднение глубины (EDA) для смешивания информации между слоями
- 3-слойный MLP для каждого эксперта
- Использует схему балансировки, вдохновленную теорией управления, чтобы держать экспертов как занятыми, так и специализированными
Рецепт обучения:
- Всего 14T токенов
- 3 фазы: предварительное обучение с акцентом на веб → фаза с акцентом на математику/код/структурированные данные → среднее обучение с длинным контекстом + рассуждения
- Учебный план со временем смещается в сторону плотных STEM + данных для рассуждений
- Расширение контекста с 4k → 32k с помощью контекстно-параллельного CCA

Наш кластер, размещенный на @IBMcloud, состоит из 128 вычислительных узлов, каждый из которых содержит:
- 8 MI300X GPU, соединенных с помощью InfinityFabric
- 8 Pollara 400Gbps межузловых соединений
- 2 процессора Intel Xeon Platinum 8570
Узлы соединены в топологии только с рельсами на двух уровнях.

Мы провели совместное проектирование, чтобы сократить время обучения:
- Ядра для RMSNorm + итерация Ньютона-Шульца Муона
- Aegis, наша автоматизированная система отказоустойчивости для обеспечения высокой доступности
- Распределенное создание контрольных точек и изменение формы
- Новые схемы параллелизма для CP и распределенного Муона

ZAYA1-base демонстрирует высокие результаты по сравнению с аналогичными моделями, что делает его надежной базовой моделью для нашего последующего постобучения.

Несмотря на всего лишь 760 миллионов активных параметров, ZAYA1-base превосходит плотные модели, такие как Llama-3-8B, и конкурирует с Qwen3-4B и Gemma3-12B по математическим и программным тестам. В условиях высокого pass@k базовая модель приближается к производительности специализированных моделей рассуждений.

29,8K
Топ
Рейтинг
Избранное

