В сотрудничестве с @AMD и @IBM мы @ZyphraAI представляем ZAYA1-base! Первый крупномасштабный модель на интегрированной аппаратной, программной и сетевой платформе AMD. ZAYA1 использует новую архитектуру MoE от Zyphra с 760M активных и 8.3B общих параметров. Технический документ и многое другое ниже👇
PR: Технический блог: Техническая работа: Hugging Face:
Архитектурно, ZAYA1 следует нашему рецепту "MoE++": - Сжатое свёрточное внимание (CCA) [] - Новый маршрутизатор ZAYA1 - Масштабирование остатков на уровне слоя с обучаемыми воротами Это обеспечивает лучшие кривые масштабирования (на FLOP и на параметр), чем стандартный MoE.
Маршрутизатор ZAYA1 заменяет традиционные линейные маршрутизаторы на: - Проектирование остаточного потока - Применяет экспоненциальное усреднение глубины (EDA) для смешивания информации между слоями - 3-слойный MLP для каждого эксперта - Использует схему балансировки, вдохновленную теорией управления, чтобы держать экспертов как занятыми, так и специализированными
Рецепт обучения: - Всего 14T токенов - 3 фазы: предварительное обучение с акцентом на веб → фаза с акцентом на математику/код/структурированные данные → среднее обучение с длинным контекстом + рассуждения - Учебный план со временем смещается в сторону плотных STEM + данных для рассуждений - Расширение контекста с 4k → 32k с помощью контекстно-параллельного CCA
Наш кластер, размещенный на @IBMcloud, состоит из 128 вычислительных узлов, каждый из которых содержит: - 8 MI300X GPU, соединенных с помощью InfinityFabric - 8 Pollara 400Gbps межузловых соединений - 2 процессора Intel Xeon Platinum 8570 Узлы соединены в топологии только с рельсами на двух уровнях.
Мы провели совместное проектирование, чтобы сократить время обучения: - Ядра для RMSNorm + итерация Ньютона-Шульца Муона - Aegis, наша автоматизированная система отказоустойчивости для обеспечения высокой доступности - Распределенное создание контрольных точек и изменение формы - Новые схемы параллелизма для CP и распределенного Муона
ZAYA1-base демонстрирует высокие результаты по сравнению с аналогичными моделями, что делает его надежной базовой моделью для нашего последующего постобучения.
Несмотря на всего лишь 760 миллионов активных параметров, ZAYA1-base превосходит плотные модели, такие как Llama-3-8B, и конкурирует с Qwen3-4B и Gemma3-12B по математическим и программным тестам. В условиях высокого pass@k базовая модель приближается к производительности специализированных моделей рассуждений.
29,8K