En colaboración con @AMD y @IBM, ¡@ZyphraAI compartimos la base de ZAYA1! El primer modelo a gran escala en una pila integrada de hardware, software y red de AMD. ZAYA1 utiliza la novedosa arquitectura MoE de Zyphra con 760M activos y 8,3B de parámetros totales. Artículo técnico y más a continuación👇
PR: Blog técnico: Artículo técnico: Cara de abrazo:
Arquitectónicamente, ZAYA1 sigue nuestra receta "MoE++": - Atención Convolucional Comprimida (CCA) [] - Nuevo router ZAYA1 - Escalado residual por capa con puertas aprendidas Estos ofrecen mejores curvas de escalado (por FLOP y por parámetro) que el MoE estándar.
El router ZAYA1 sustituye a los routers lineales tradicionales por: - Proyecta el flujo residual - Aplica promediado exponencial de profundidad (EDA) para mezclar información entre capas - MLP de 3 capas por experto - Utiliza un esquema de equilibrio inspirado en la teoría del control para mantener a los expertos ocupados y especializados
Receta de entrenamiento: - 14T tokens en total - 3 fases: preentrenamiento con mucha red → fase → con mucha estructura y contexto largo + razonamiento a mitad del tren - El plan de estudios se desplaza hacia datos densos de STEM + razonamiento a lo largo del tiempo - Extensión de contexto de 4k → 32k con mediante CCA paralelo al contexto
Nuestro clúster, alojado por @IBMcloud, está compuesto por 128 nodos de cómputo, cada uno contene: - 8 GPUs MI300X interconectadas con InfinityFabric - 8 Interconexiones internodos Pollara a 400Gbps - 2 CPUs Intel Xeon Platinum 8570 Los nodos están conectados en una topología de dos niveles solo de rails.
Llevamos a cabo co-diseño para reducir el tiempo de formación: - Núcleos para la iteración Newton-Schulz de RMSNorm + Muon - Aegis, nuestro sistema automatizado de tolerancia a fallos para garantizar un alto tiempo de actividad - Puntos de control distribuidos y remodelación - Esquemas novedosos de paralelismo para CP y Muón distribuido
La base ZAYA1 rinde bien en comparación con modelos similares, lo que la convierte en un modelo base sólido para nuestro posterior entrenamiento.
A pesar de solo 760M de parámetros activos, la base ZAYA1 supera a modelos densos como Llama-3-8B y es competitiva con Qwen3-4B y Gemma3-12B en benchmarks de matemáticas y codificación. En entornos de alta pass@k, el modelo base se acerca al rendimiento de modelos de razonamiento especializados.
50.85K