In samenwerking met @AMD en @IBM delen wij @ZyphraAI ZAYA1-base! Het eerste grootschalige model op een geïntegreerde AMD-hardware-, software- en netwerkinfrastructuur. ZAYA1 maakt gebruik van Zyphra’s nieuwe MoE-architectuur met 760M actieve en 8,3B totale parameters. Technisch document en meer hieronder👇
PR: Technische Blog: Technisch Document: Hugging Face:
Architectonisch volgt ZAYA1 ons "MoE++" recept: - Gecomprimeerde Convolutionele Aandacht (CCA) [] - Nieuwe ZAYA1-router - Per-laag residuele schaling met geleerde poorten Deze zorgen voor betere schalingscurves (per FLOP en per parameter) dan standaard MoE.
De ZAYA1-router vervangt traditionele lineaire routers door: - Neerwaartse projecten van de residuele stroom - Past Exponentiële Diepte Gemiddelde (EDA) toe om informatie over lagen te mengen - 3-laags MLP per expert - Gebruikt een op controle-theorie geïnspireerd balanceringsschema om experts zowel bezig als gespecialiseerd te houden
Trainingsrecept: - 14T tokens totaal - 3 fasen: web-zware pretraining → wiskunde/code/gestructureerde-zware fase → lange-context + redeneren mid-train - Curriculum verschuift in de loop van de tijd naar dichte STEM + redeneringsdata - Contextuitbreiding van 4k → 32k via context-parallel CCA
Onze cluster, gehost door @IBMcloud, bestaat uit 128 rekennodes, elk met: - 8 MI300X GPU's onderling verbonden met InfinityFabric - 8 Pollara 400Gbps inter-node interconnects - 2 Intel Xeon Platinum 8570 CPU's Nodes zijn verbonden in een twee-niveau rails-only topologie.
We hebben co-design uitgevoerd om de trainingstijd te verkorten: - Kernels voor RMSNorm + Muon’s Newton-Schulz iteratie - Aegis, ons geautomatiseerde fouttolerantiesysteem om hoge uptime te waarborgen - Gedistribueerde checkpointing en herschikking - Nieuwe parallelisme-schema's voor CP en gedistribueerde Muon
ZAYA1-base presteert sterk in vergelijking met vergelijkbare modellen, waardoor het een sterk fundamentmodel is voor onze daaropvolgende post-training.
Ondanks slechts 760M actieve parameters, presteert ZAYA1-base beter dan dichte modellen zoals Llama-3-8B en is het concurrerend met Qwen3-4B en Gemma3-12B op wiskunde- en programmeerbenchmarks. In hoge pass@k-instellingen benadert het basismodel de prestaties van gespecialiseerde redeneermodellen.
29,81K