Wspólnie z @AMD i @IBM, my @ZyphraAI dzielimy się ZAYA1-base! Pierwszy model dużej skali na zintegrowanym sprzęcie, oprogramowaniu i stosie sieciowym AMD. ZAYA1 wykorzystuje nowatorską architekturę MoE Zyphra z 760M aktywnych i 8.3B całkowitych parametrów. Dokument techniczny i więcej poniżej👇
PR: Blog techniczny: Dokument techniczny: Hugging Face:
Architektonicznie, ZAYA1 podąża za naszym przepisem „MoE++”: - Skompresowana uwaga konwolucyjna (CCA) [] - Nowy router ZAYA1 - Skalowanie resztkowe na poziomie warstwy z nauczonymi bramkami Te elementy zapewniają lepsze krzywe skalowania (na FLOP i na parametr) niż standardowe MoE.
Router ZAYA1 zastępuje tradycyjne routery liniowe: - Projekty w dół strumienia resztkowego - Zastosowuje Ekspozycyjne Uśrednianie Głębokości (EDA) do mieszania informacji w warstwach - 3-warstwowy MLP na eksperta - Używa schematu równoważenia inspirowanego teorią sterowania, aby utrzymać ekspertów zarówno zajętych, jak i wyspecjalizowanych
Przepis na trening: - 14T tokenów łącznie - 3 fazy: wstępne szkolenie z dużym naciskiem na sieć → faza z dużym naciskiem na matematykę/kod/strukturę → trening w połowie z długim kontekstem + rozumowaniem - Program nauczania przesuwa się w kierunku gęstych danych STEM + rozumowania w miarę upływu czasu - Rozszerzenie kontekstu z 4k → 32k za pomocą kontekstowo-równoległej CCA
Nasz klaster, hostowany przez @IBMcloud, składa się z 128 węzłów obliczeniowych, z których każdy zawiera: - 8 GPU MI300X połączonych z InfinityFabric - 8 interkonektów międzywęzłowych Pollara 400Gbps - 2 procesory Intel Xeon Platinum 8570 Węzły są połączone w topologii tylko na szynach o dwóch poziomach.
Przeprowadziliśmy współprojektowanie, aby skrócić czas szkolenia: - Kernels dla RMSNorm + iteracja Newtona-Schulza Muona - Aegis, nasz zautomatyzowany system odporności na błędy, aby zapewnić wysoką dostępność - Rozproszone punktowanie kontrolne i przekształcanie - Nowatorskie schematy równoległości dla CP i rozproszonego Muona
ZAYA1-base wypada bardzo dobrze w porównaniu do podobnych modeli, co czyni go solidnym modelem bazowym dla naszego późniejszego treningu.
Pomimo zaledwie 760M aktywnych parametrów, ZAYA1-base przewyższa gęste modele takie jak Llama-3-8B i jest konkurencyjny z Qwen3-4B oraz Gemma3-12B w testach matematycznych i programistycznych. W ustawieniach wysokiego pass@k, model bazowy zbliża się do wydajności wyspecjalizowanych modeli rozumowania.
29,81K