În colaborare cu @AMD și @IBM, @ZyphraAI împărtășim baza ZAYA1! Primul model la scară largă pe un stack integrat de hardware, software și rețea AMD. ZAYA1 folosește arhitectura inovatoare MoE a Zyphra, cu 760M active și 8,3B parametri totali. Lucrare tehnică și altele mai jos👇
PR: Blog tehnic: Lucrare tehnică: Față de îmbrățișare:
Din punct de vedere arhitectural, ZAYA1 urmează rețeta noastră "MoE++": - Atenția Convoluțională Comprimată (CCA) [] - Noul router ZAYA1 - Scalare reziduală pe strat cu porți învățate Acestea oferă curbe de scalare mai bune (pe FLOP și pe parametru) decât MoE-ul standard.
Routerul ZAYA1 înlocuiește routerele liniare tradiționale cu: - Proiectare în descărcare a fluxului rezidual - Aplică Media Exponențială a Adâncimii (EDA) pentru a amesteca informațiile între straturi - MLP cu 3 straturi per expert - Folosește o schemă de echilibrare inspirată din teoria controlului pentru a menține experții atât ocupați, cât și specializați
Rețetă de antrenament: - 14T tokenuri în total - 3 faze: pre-antrenament cu multă rețea → fază → cu multă fază context lung + raționament în timpul trenului - Curriculumul se orientează spre date dense STEM + raționament în timp - Extindere a contextului de la 4k → 32k cu CCA prin paralel context-context
Clusterul nostru, găzduit de @IBMcloud, este compus din 128 de noduri de calcul, fiecare conținând: - 8 GPU-uri MI300X interconectate cu InfinityFabric - 8 Interconectări inter-noduri Pollara 400Gbps - 2 procesoare Intel Xeon Platinum 8570 Nodurile sunt conectate într-o topologie cu două niveluri doar pe șine.
Am realizat co-proiectare pentru a reduce timpul de instruire: - Nuclee pentru iterația Newton-Schulz a RMSNorm + Muon - Aegis, sistemul nostru automatizat de toleranță la erori pentru a asigura un timp ridicat de funcționare - Puncte de control distribuite și remodelare - Scheme noi de paralelism pentru CP și Muon distribuit
ZAYA1-base performează puternic comparativ cu modele similare, ceea ce îl face un model de bază solid pentru antrenamentul nostru ulterior.
În ciuda a doar 760M parametri activi, baza ZAYA1 depășește modelele dense precum Llama-3-8B și este competitivă cu Qwen3-4B și Gemma3-12B la benchmark-uri matematice și de programare. În contexte de pass@k înalt, modelul de bază se apropie de performanța modelelor de raționament specializate.
29,81K