I samarbete med @AMD och @IBM delar vi @ZyphraAI ZAYA1-base! Den första storskaliga modellen på en integrerad AMD-hårdvara, mjukvara och nätverksstack. ZAYA1 använder Zyphras nyskapande MoE-arkitektur med 760 miljoner aktiva och totalt 8,3 miljarder parametrar. Teknisk artikel och mer nedan👇
PR: Teknisk blogg: Teknisk artikel: Kramande ansikte:
Arkitektoniskt följer ZAYA1 vårt "MoE++"-recept: - Komprimerad konvolutionsuppmärksamhet (CCA) [] - Ny ZAYA1-router - Per-lager residual skalning med inlärda grindar Dessa ger bättre skalningskurvor (per FLOP och per parameter) än standard MoE.
ZAYA1-routern ersätter traditionella linjära routrar med: - Nedprojekterar restström - Applicerar exponentiell djupgenomsnitt (EDA) för att blanda information mellan lager - 3-lagers MLP per expert - Använder ett balanseringsschema inspirerat av reglerteori för att hålla experter både sysselsatta och specialiserade
Träningsrecept: - 14T tokens totalt - 3 faser: webbtung förträning → matematik/kod/strukturerad fas → långkontext + resonemang mitt i tåget - Läroplanen skiftar mot tät STEM + resonemangsdata över tid - Kontextutvidgning från 4k → 32k via kontextparallell CCA
Vårt kluster, som är värd hos @IBMcloud, består av 128 beräkningsnoder, var och en innehåller: - 8 MI300X-GPU:er sammankopplade med InfinityFabric - 8 Pollara 400Gbps inter-nod-sammankopplingar - 2 Intel Xeon Platinum 8570-processorer Noderna är kopplade i en tvånivå-räls-topologi.
Vi genomförde samdesign för att minska utbildningstiden: - Kärnor för RMSNorm + Muons Newton-Schulz-iteration - Aegis, vårt automatiserade felkontrollsystem för att säkerställa hög drifttid - Distribuerad kontrollpunkt och omformning - Nya parallellismscheman för CP och distribuerad Muon
ZAYA1-base presterar starkt jämfört med liknande modeller, vilket gör det till en stark grundmodell för vår efterföljande efterträning.
Trots endast 760M aktiva parametrar överträffar ZAYA1-basen täta modeller som Llama-3-8B och är konkurrenskraftig med Qwen3-4B och Gemma3-12B när det gäller matematik och kodningsbenchmarks. I höga pass@k närmar sig basmodellen prestandan hos specialiserade resonemangsmodeller.
42,5K