Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En colaboración con @AMD y @IBM, ¡@ZyphraAI compartimos la base de ZAYA1! El primer modelo a gran escala en una pila integrada de hardware, software y red de AMD. ZAYA1 utiliza la novedosa arquitectura MoE de Zyphra con 760M activos y 8,3B de parámetros totales.
Artículo técnico y más a continuación👇

PR:
Blog técnico:
Artículo técnico:
Cara de abrazo:
Arquitectónicamente, ZAYA1 sigue nuestra receta "MoE++":
- Atención Convolucional Comprimida (CCA) []
- Nuevo router ZAYA1
- Escalado residual por capa con puertas aprendidas
Estos ofrecen mejores curvas de escalado (por FLOP y por parámetro) que el MoE estándar.

El router ZAYA1 sustituye a los routers lineales tradicionales por:
- Proyecta el flujo residual
- Aplica promediado exponencial de profundidad (EDA) para mezclar información entre capas
- MLP de 3 capas por experto
- Utiliza un esquema de equilibrio inspirado en la teoría del control para mantener a los expertos ocupados y especializados
Receta de entrenamiento:
- 14T tokens en total
- 3 fases: preentrenamiento con mucha red → fase → con mucha estructura y contexto largo + razonamiento a mitad del tren
- El plan de estudios se desplaza hacia datos densos de STEM + razonamiento a lo largo del tiempo
- Extensión de contexto de 4k → 32k con mediante CCA paralelo al contexto

Nuestro clúster, alojado por @IBMcloud, está compuesto por 128 nodos de cómputo, cada uno contene:
- 8 GPUs MI300X interconectadas con InfinityFabric
- 8 Interconexiones internodos Pollara a 400Gbps
- 2 CPUs Intel Xeon Platinum 8570
Los nodos están conectados en una topología de dos niveles solo de rails.

Llevamos a cabo co-diseño para reducir el tiempo de formación:
- Núcleos para la iteración Newton-Schulz de RMSNorm + Muon
- Aegis, nuestro sistema automatizado de tolerancia a fallos para garantizar un alto tiempo de actividad
- Puntos de control distribuidos y remodelación
- Esquemas novedosos de paralelismo para CP y Muón distribuido

La base ZAYA1 rinde bien en comparación con modelos similares, lo que la convierte en un modelo base sólido para nuestro posterior entrenamiento.

A pesar de solo 760M de parámetros activos, la base ZAYA1 supera a modelos densos como Llama-3-8B y es competitiva con Qwen3-4B y Gemma3-12B en benchmarks de matemáticas y codificación. En entornos de alta pass@k, el modelo base se acerca al rendimiento de modelos de razonamiento especializados.

50.85K
Populares
Ranking
Favoritas

