Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I samarbete med @AMD och @IBM delar vi @ZyphraAI ZAYA1-base! Den första storskaliga modellen på en integrerad AMD-hårdvara, mjukvara och nätverksstack. ZAYA1 använder Zyphras nyskapande MoE-arkitektur med 760 miljoner aktiva och totalt 8,3 miljarder parametrar.
Teknisk artikel och mer nedan👇

PR:
Teknisk blogg:
Teknisk artikel:
Kramande ansikte:
Arkitektoniskt följer ZAYA1 vårt "MoE++"-recept:
- Komprimerad konvolutionsuppmärksamhet (CCA) []
- Ny ZAYA1-router
- Per-lager residual skalning med inlärda grindar
Dessa ger bättre skalningskurvor (per FLOP och per parameter) än standard MoE.

ZAYA1-routern ersätter traditionella linjära routrar med:
- Nedprojekterar restström
- Applicerar exponentiell djupgenomsnitt (EDA) för att blanda information mellan lager
- 3-lagers MLP per expert
- Använder ett balanseringsschema inspirerat av reglerteori för att hålla experter både sysselsatta och specialiserade
Träningsrecept:
- 14T tokens totalt
- 3 faser: webbtung förträning → matematik/kod/strukturerad fas → långkontext + resonemang mitt i tåget
- Läroplanen skiftar mot tät STEM + resonemangsdata över tid
- Kontextutvidgning från 4k → 32k via kontextparallell CCA

Vårt kluster, som är värd hos @IBMcloud, består av 128 beräkningsnoder, var och en innehåller:
- 8 MI300X-GPU:er sammankopplade med InfinityFabric
- 8 Pollara 400Gbps inter-nod-sammankopplingar
- 2 Intel Xeon Platinum 8570-processorer
Noderna är kopplade i en tvånivå-räls-topologi.

Vi genomförde samdesign för att minska utbildningstiden:
- Kärnor för RMSNorm + Muons Newton-Schulz-iteration
- Aegis, vårt automatiserade felkontrollsystem för att säkerställa hög drifttid
- Distribuerad kontrollpunkt och omformning
- Nya parallellismscheman för CP och distribuerad Muon

ZAYA1-base presterar starkt jämfört med liknande modeller, vilket gör det till en stark grundmodell för vår efterföljande efterträning.

Trots endast 760M aktiva parametrar överträffar ZAYA1-basen täta modeller som Llama-3-8B och är konkurrenskraftig med Qwen3-4B och Gemma3-12B när det gäller matematik och kodningsbenchmarks. I höga pass@k närmar sig basmodellen prestandan hos specialiserade resonemangsmodeller.

42,5K
Topp
Rankning
Favoriter

