Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
În colaborare cu @AMD și @IBM, @ZyphraAI împărtășim baza ZAYA1! Primul model la scară largă pe un stack integrat de hardware, software și rețea AMD. ZAYA1 folosește arhitectura inovatoare MoE a Zyphra, cu 760M active și 8,3B parametri totali.
Lucrare tehnică și altele mai jos👇

PR:
Blog tehnic:
Lucrare tehnică:
Față de îmbrățișare:
Din punct de vedere arhitectural, ZAYA1 urmează rețeta noastră "MoE++":
- Atenția Convoluțională Comprimată (CCA) []
- Noul router ZAYA1
- Scalare reziduală pe strat cu porți învățate
Acestea oferă curbe de scalare mai bune (pe FLOP și pe parametru) decât MoE-ul standard.

Routerul ZAYA1 înlocuiește routerele liniare tradiționale cu:
- Proiectare în descărcare a fluxului rezidual
- Aplică Media Exponențială a Adâncimii (EDA) pentru a amesteca informațiile între straturi
- MLP cu 3 straturi per expert
- Folosește o schemă de echilibrare inspirată din teoria controlului pentru a menține experții atât ocupați, cât și specializați
Rețetă de antrenament:
- 14T tokenuri în total
- 3 faze: pre-antrenament cu multă rețea → fază → cu multă fază context lung + raționament în timpul trenului
- Curriculumul se orientează spre date dense STEM + raționament în timp
- Extindere a contextului de la 4k → 32k cu CCA prin paralel context-context

Clusterul nostru, găzduit de @IBMcloud, este compus din 128 de noduri de calcul, fiecare conținând:
- 8 GPU-uri MI300X interconectate cu InfinityFabric
- 8 Interconectări inter-noduri Pollara 400Gbps
- 2 procesoare Intel Xeon Platinum 8570
Nodurile sunt conectate într-o topologie cu două niveluri doar pe șine.

Am realizat co-proiectare pentru a reduce timpul de instruire:
- Nuclee pentru iterația Newton-Schulz a RMSNorm + Muon
- Aegis, sistemul nostru automatizat de toleranță la erori pentru a asigura un timp ridicat de funcționare
- Puncte de control distribuite și remodelare
- Scheme noi de paralelism pentru CP și Muon distribuit

ZAYA1-base performează puternic comparativ cu modele similare, ceea ce îl face un model de bază solid pentru antrenamentul nostru ulterior.

În ciuda a doar 760M parametri activi, baza ZAYA1 depășește modelele dense precum Llama-3-8B și este competitivă cu Qwen3-4B și Gemma3-12B la benchmark-uri matematice și de programare. În contexte de pass@k înalt, modelul de bază se apropie de performanța modelelor de raționament specializate.

29,81K
Limită superioară
Clasament
Favorite

