Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
In Zusammenarbeit mit @AMD und @IBM teilen wir @ZyphraAI ZAYA1-base! Das erste großangelegte Modell auf einem integrierten AMD-Hardware-, Software- und Netzwerk-Stack. ZAYA1 verwendet die neuartige MoE-Architektur von Zyphra mit 760M aktiven und 8,3B Gesamtparametern.
Technisches Papier und mehr unten👇

PR:
Technischer Blog:
Technisches Papier:
Hugging Face:
Architektonisch folgt ZAYA1 unserem „MoE++“-Rezept:
- Komprimierte konvolutionale Aufmerksamkeit (CCA) []
- Neuer ZAYA1-Router
- Residualskalierung pro Schicht mit gelernten Toren
Diese bieten bessere Skalierungskurven (pro FLOP und pro Parameter) als das Standard-MoE.

Der ZAYA1-Router ersetzt traditionelle lineare Router durch:
- Downprojects Reststrom
- Wendet Exponential Depth Averaging (EDA) an, um Informationen über Schichten hinweg zu mischen
- 3-Schichten-MLP pro Experte
- Verwendet ein von der Regelungstheorie inspiriertes Ausgleichsschema, um die Experten sowohl beschäftigt als auch spezialisiert zu halten
Trainingsrezept:
- Insgesamt 14T Tokens
- 3 Phasen: weblastiges Pretraining → math/code/strukturlastige Phase → langes Kontext- + Denktraining in der Mitte
- Der Lehrplan verschiebt sich im Laufe der Zeit hin zu dichten STEM- + Denk-Daten
- Kontextverlängerung von 4k → 32k über kontext-parallele CCA

Unser Cluster, gehostet von @IBMcloud, besteht aus 128 Compute-Knoten, von denen jeder enthält:
- 8 MI300X GPUs, die mit InfinityFabric verbunden sind
- 8 Pollara 400Gbps Inter-Knoten-Verbindungen
- 2 Intel Xeon Platinum 8570 CPUs
Die Knoten sind in einer zweistufigen Schienen-Topologie verbunden.

Wir haben Co-Design durchgeführt, um die Trainingszeit zu reduzieren:
- Kerne für RMSNorm + Muons Newton-Schulz-Iteration
- Aegis, unser automatisiertes Fehlertoleranzsystem zur Gewährleistung einer hohen Betriebszeit
- Verteilte Checkpoints und Umformung
- Neuartige Parallelitätsschemata für CP und verteiltes Muon

ZAYA1-base schneidet im Vergleich zu ähnlichen Modellen stark ab und ist somit ein starkes Fundamentmodell für unser anschließendes Post-Training.

Trotz nur 760M aktiven Parametern übertrifft ZAYA1-base dichte Modelle wie Llama-3-8B und ist wettbewerbsfähig mit Qwen3-4B und Gemma3-12B bei Mathematik- und Programmierbenchmarks. In hochgradigen pass@k-Einstellungen nähert sich das Basismodell der Leistung spezialisierter Denkmodelle.

50,85K
Top
Ranking
Favoriten

