Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
In samenwerking met @AMD en @IBM delen wij @ZyphraAI ZAYA1-base! Het eerste grootschalige model op een geïntegreerde AMD-hardware-, software- en netwerkinfrastructuur. ZAYA1 maakt gebruik van Zyphra’s nieuwe MoE-architectuur met 760M actieve en 8,3B totale parameters.
Technisch document en meer hieronder👇

PR:
Technische Blog:
Technisch Document:
Hugging Face:
Architectonisch volgt ZAYA1 ons "MoE++" recept:
- Gecomprimeerde Convolutionele Aandacht (CCA) []
- Nieuwe ZAYA1-router
- Per-laag residuele schaling met geleerde poorten
Deze zorgen voor betere schalingscurves (per FLOP en per parameter) dan standaard MoE.

De ZAYA1-router vervangt traditionele lineaire routers door:
- Neerwaartse projecten van de residuele stroom
- Past Exponentiële Diepte Gemiddelde (EDA) toe om informatie over lagen te mengen
- 3-laags MLP per expert
- Gebruikt een op controle-theorie geïnspireerd balanceringsschema om experts zowel bezig als gespecialiseerd te houden
Trainingsrecept:
- 14T tokens totaal
- 3 fasen: web-zware pretraining → wiskunde/code/gestructureerde-zware fase → lange-context + redeneren mid-train
- Curriculum verschuift in de loop van de tijd naar dichte STEM + redeneringsdata
- Contextuitbreiding van 4k → 32k via context-parallel CCA

Onze cluster, gehost door @IBMcloud, bestaat uit 128 rekennodes, elk met:
- 8 MI300X GPU's onderling verbonden met InfinityFabric
- 8 Pollara 400Gbps inter-node interconnects
- 2 Intel Xeon Platinum 8570 CPU's
Nodes zijn verbonden in een twee-niveau rails-only topologie.

We hebben co-design uitgevoerd om de trainingstijd te verkorten:
- Kernels voor RMSNorm + Muon’s Newton-Schulz iteratie
- Aegis, ons geautomatiseerde fouttolerantiesysteem om hoge uptime te waarborgen
- Gedistribueerde checkpointing en herschikking
- Nieuwe parallelisme-schema's voor CP en gedistribueerde Muon

ZAYA1-base presteert sterk in vergelijking met vergelijkbare modellen, waardoor het een sterk fundamentmodel is voor onze daaropvolgende post-training.

Ondanks slechts 760M actieve parameters, presteert ZAYA1-base beter dan dichte modellen zoals Llama-3-8B en is het concurrerend met Qwen3-4B en Gemma3-12B op wiskunde- en programmeerbenchmarks. In hoge pass@k-instellingen benadert het basismodel de prestaties van gespecialiseerde redeneermodellen.

29,81K
Boven
Positie
Favorieten

