¡En colaboración con @AMD y @IBM, nosotros @ZyphraAI estamos compartiendo ZAYA1-base! El primer modelo a gran escala en un stack integrado de hardware, software y redes de AMD. ZAYA1 utiliza la novedosa arquitectura MoE de Zyphra con 760M activos y 8.3B de parámetros totales. Documento técnico y más abajo👇
PR: Blog Técnico: Documento Técnico: Hugging Face:
Arquitectónicamente, ZAYA1 sigue nuestra receta "MoE++": - Atención Convolucional Comprimida (CCA) [] - Nuevo enrutador ZAYA1 - Escalado residual por capa con puertas aprendidas Estos ofrecen mejores curvas de escalado (por FLOP y por parámetro) que el MoE estándar.
El enrutador ZAYA1 reemplaza a los enrutadores lineales tradicionales con: - Proyectos descendentes de flujo residual - Aplica Promedio de Profundidad Exponencial (EDA) para mezclar información entre capas - MLP de 3 capas por experto - Utiliza un esquema de balanceo inspirado en la teoría de control para mantener a los expertos ocupados y especializados
Receta de entrenamiento: - 14T tokens en total - 3 fases: preentrenamiento centrado en la web → fase centrada en matemáticas/código/estructurado → entrenamiento medio de contexto largo + razonamiento - El currículo se desplaza hacia datos densos de STEM + razonamiento con el tiempo - Extensión de contexto de 4k → 32k a través de CCA paralelo al contexto
Nuestro clúster, alojado por @IBMcloud, está compuesto por 128 nodos de computación, cada uno de los cuales contiene: - 8 GPUs MI300X interconectadas con InfinityFabric - 8 interconexiones inter-nodo Pollara de 400Gbps - 2 CPUs Intel Xeon Platinum 8570 Los nodos están conectados en una topología de rieles de dos niveles.
Llevamos a cabo un co-diseño para reducir el tiempo de entrenamiento: - Kernels para RMSNorm + Iteración de Newton-Schulz de Muon - Aegis, nuestro sistema automatizado de tolerancia a fallos para garantizar un alto tiempo de actividad - Puntos de control distribuidos y reestructuración - Nuevos esquemas de paralelismo para CP y Muon distribuido
ZAYA1-base se desempeña de manera sólida en comparación con modelos similares, lo que lo convierte en un modelo base fuerte para nuestro posterior entrenamiento.
A pesar de tener solo 760 millones de parámetros activos, ZAYA1-base supera a modelos densos como Llama-3-8B y es competitivo con Qwen3-4B y Gemma3-12B en pruebas de matemáticas y programación. En configuraciones de alta pass@k, el modelo base se acerca al rendimiento de modelos de razonamiento especializados.
29,81K