Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡En colaboración con @AMD y @IBM, nosotros @ZyphraAI estamos compartiendo ZAYA1-base! El primer modelo a gran escala en un stack integrado de hardware, software y redes de AMD. ZAYA1 utiliza la novedosa arquitectura MoE de Zyphra con 760M activos y 8.3B de parámetros totales.
Documento técnico y más abajo👇

PR:
Blog Técnico:
Documento Técnico:
Hugging Face:
Arquitectónicamente, ZAYA1 sigue nuestra receta "MoE++":
- Atención Convolucional Comprimida (CCA) []
- Nuevo enrutador ZAYA1
- Escalado residual por capa con puertas aprendidas
Estos ofrecen mejores curvas de escalado (por FLOP y por parámetro) que el MoE estándar.

El enrutador ZAYA1 reemplaza a los enrutadores lineales tradicionales con:
- Proyectos descendentes de flujo residual
- Aplica Promedio de Profundidad Exponencial (EDA) para mezclar información entre capas
- MLP de 3 capas por experto
- Utiliza un esquema de balanceo inspirado en la teoría de control para mantener a los expertos ocupados y especializados
Receta de entrenamiento:
- 14T tokens en total
- 3 fases: preentrenamiento centrado en la web → fase centrada en matemáticas/código/estructurado → entrenamiento medio de contexto largo + razonamiento
- El currículo se desplaza hacia datos densos de STEM + razonamiento con el tiempo
- Extensión de contexto de 4k → 32k a través de CCA paralelo al contexto

Nuestro clúster, alojado por @IBMcloud, está compuesto por 128 nodos de computación, cada uno de los cuales contiene:
- 8 GPUs MI300X interconectadas con InfinityFabric
- 8 interconexiones inter-nodo Pollara de 400Gbps
- 2 CPUs Intel Xeon Platinum 8570
Los nodos están conectados en una topología de rieles de dos niveles.

Llevamos a cabo un co-diseño para reducir el tiempo de entrenamiento:
- Kernels para RMSNorm + Iteración de Newton-Schulz de Muon
- Aegis, nuestro sistema automatizado de tolerancia a fallos para garantizar un alto tiempo de actividad
- Puntos de control distribuidos y reestructuración
- Nuevos esquemas de paralelismo para CP y Muon distribuido

ZAYA1-base se desempeña de manera sólida en comparación con modelos similares, lo que lo convierte en un modelo base fuerte para nuestro posterior entrenamiento.

A pesar de tener solo 760 millones de parámetros activos, ZAYA1-base supera a modelos densos como Llama-3-8B y es competitivo con Qwen3-4B y Gemma3-12B en pruebas de matemáticas y programación. En configuraciones de alta pass@k, el modelo base se acerca al rendimiento de modelos de razonamiento especializados.

29,81K
Parte superior
Clasificación
Favoritos

