In Zusammenarbeit mit @AMD und @IBM teilen wir @ZyphraAI ZAYA1-base! Das erste großangelegte Modell auf einem integrierten AMD-Hardware-, Software- und Netzwerk-Stack. ZAYA1 verwendet die neuartige MoE-Architektur von Zyphra mit 760M aktiven und 8,3B Gesamtparametern. Technisches Papier und mehr unten👇
PR: Technischer Blog: Technisches Papier: Hugging Face:
Architektonisch folgt ZAYA1 unserem „MoE++“-Rezept: - Komprimierte konvolutionale Aufmerksamkeit (CCA) [] - Neuer ZAYA1-Router - Residualskalierung pro Schicht mit gelernten Toren Diese bieten bessere Skalierungskurven (pro FLOP und pro Parameter) als das Standard-MoE.
Der ZAYA1-Router ersetzt traditionelle lineare Router durch: - Downprojects Reststrom - Wendet Exponential Depth Averaging (EDA) an, um Informationen über Schichten hinweg zu mischen - 3-Schichten-MLP pro Experte - Verwendet ein von der Regelungstheorie inspiriertes Ausgleichsschema, um die Experten sowohl beschäftigt als auch spezialisiert zu halten
Trainingsrezept: - Insgesamt 14T Tokens - 3 Phasen: weblastiges Pretraining → math/code/strukturlastige Phase → langes Kontext- + Denktraining in der Mitte - Der Lehrplan verschiebt sich im Laufe der Zeit hin zu dichten STEM- + Denk-Daten - Kontextverlängerung von 4k → 32k über kontext-parallele CCA
Unser Cluster, gehostet von @IBMcloud, besteht aus 128 Compute-Knoten, von denen jeder enthält: - 8 MI300X GPUs, die mit InfinityFabric verbunden sind - 8 Pollara 400Gbps Inter-Knoten-Verbindungen - 2 Intel Xeon Platinum 8570 CPUs Die Knoten sind in einer zweistufigen Schienen-Topologie verbunden.
Wir haben Co-Design durchgeführt, um die Trainingszeit zu reduzieren: - Kerne für RMSNorm + Muons Newton-Schulz-Iteration - Aegis, unser automatisiertes Fehlertoleranzsystem zur Gewährleistung einer hohen Betriebszeit - Verteilte Checkpoints und Umformung - Neuartige Parallelitätsschemata für CP und verteiltes Muon
ZAYA1-base schneidet im Vergleich zu ähnlichen Modellen stark ab und ist somit ein starkes Fundamentmodell für unser anschließendes Post-Training.
Trotz nur 760M aktiven Parametern übertrifft ZAYA1-base dichte Modelle wie Llama-3-8B und ist wettbewerbsfähig mit Qwen3-4B und Gemma3-12B bei Mathematik- und Programmierbenchmarks. In hochgradigen pass@k-Einstellungen nähert sich das Basismodell der Leistung spezialisierter Denkmodelle.
50,85K