Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wspólnie z @AMD i @IBM, my @ZyphraAI dzielimy się ZAYA1-base! Pierwszy model dużej skali na zintegrowanym sprzęcie, oprogramowaniu i stosie sieciowym AMD. ZAYA1 wykorzystuje nowatorską architekturę MoE Zyphra z 760M aktywnych i 8.3B całkowitych parametrów.
Dokument techniczny i więcej poniżej👇

PR:
Blog techniczny:
Dokument techniczny:
Hugging Face:
Architektonicznie, ZAYA1 podąża za naszym przepisem „MoE++”:
- Skompresowana uwaga konwolucyjna (CCA) []
- Nowy router ZAYA1
- Skalowanie resztkowe na poziomie warstwy z nauczonymi bramkami
Te elementy zapewniają lepsze krzywe skalowania (na FLOP i na parametr) niż standardowe MoE.

Router ZAYA1 zastępuje tradycyjne routery liniowe:
- Projekty w dół strumienia resztkowego
- Zastosowuje Ekspozycyjne Uśrednianie Głębokości (EDA) do mieszania informacji w warstwach
- 3-warstwowy MLP na eksperta
- Używa schematu równoważenia inspirowanego teorią sterowania, aby utrzymać ekspertów zarówno zajętych, jak i wyspecjalizowanych
Przepis na trening:
- 14T tokenów łącznie
- 3 fazy: wstępne szkolenie z dużym naciskiem na sieć → faza z dużym naciskiem na matematykę/kod/strukturę → trening w połowie z długim kontekstem + rozumowaniem
- Program nauczania przesuwa się w kierunku gęstych danych STEM + rozumowania w miarę upływu czasu
- Rozszerzenie kontekstu z 4k → 32k za pomocą kontekstowo-równoległej CCA

Nasz klaster, hostowany przez @IBMcloud, składa się z 128 węzłów obliczeniowych, z których każdy zawiera:
- 8 GPU MI300X połączonych z InfinityFabric
- 8 interkonektów międzywęzłowych Pollara 400Gbps
- 2 procesory Intel Xeon Platinum 8570
Węzły są połączone w topologii tylko na szynach o dwóch poziomach.

Przeprowadziliśmy współprojektowanie, aby skrócić czas szkolenia:
- Kernels dla RMSNorm + iteracja Newtona-Schulza Muona
- Aegis, nasz zautomatyzowany system odporności na błędy, aby zapewnić wysoką dostępność
- Rozproszone punktowanie kontrolne i przekształcanie
- Nowatorskie schematy równoległości dla CP i rozproszonego Muona

ZAYA1-base wypada bardzo dobrze w porównaniu do podobnych modeli, co czyni go solidnym modelem bazowym dla naszego późniejszego treningu.

Pomimo zaledwie 760M aktywnych parametrów, ZAYA1-base przewyższa gęste modele takie jak Llama-3-8B i jest konkurencyjny z Qwen3-4B oraz Gemma3-12B w testach matematycznych i programistycznych. W ustawieniach wysokiego pass@k, model bazowy zbliża się do wydajności wyspecjalizowanych modeli rozumowania.

29,81K
Najlepsze
Ranking
Ulubione

