Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Wspólnie z @AMD i @IBM, my @ZyphraAI dzielimy się ZAYA1-base! Pierwszy model dużej skali na zintegrowanym sprzęcie, oprogramowaniu i stosie sieciowym AMD. ZAYA1 wykorzystuje nowatorską architekturę MoE Zyphra z 760M aktywnych i 8.3B całkowitych parametrów. Dokument techniczny i więcej poniżej👇

PR: Blog techniczny: Dokument techniczny: Hugging Face:

Architektonicznie, ZAYA1 podąża za naszym przepisem „MoE++”: - Skompresowana uwaga konwolucyjna (CCA) [] - Nowy router ZAYA1 - Skalowanie resztkowe na poziomie warstwy z nauczonymi bramkami Te elementy zapewniają lepsze krzywe skalowania (na FLOP i na parametr) niż standardowe MoE.

Router ZAYA1 zastępuje tradycyjne routery liniowe: - Projekty w dół strumienia resztkowego - Zastosowuje Ekspozycyjne Uśrednianie Głębokości (EDA) do mieszania informacji w warstwach - 3-warstwowy MLP na eksperta - Używa schematu równoważenia inspirowanego teorią sterowania, aby utrzymać ekspertów zarówno zajętych, jak i wyspecjalizowanych

Przepis na trening: - 14T tokenów łącznie - 3 fazy: wstępne szkolenie z dużym naciskiem na sieć → faza z dużym naciskiem na matematykę/kod/strukturę → trening w połowie z długim kontekstem + rozumowaniem - Program nauczania przesuwa się w kierunku gęstych danych STEM + rozumowania w miarę upływu czasu - Rozszerzenie kontekstu z 4k → 32k za pomocą kontekstowo-równoległej CCA

Nasz klaster, hostowany przez @IBMcloud, składa się z 128 węzłów obliczeniowych, z których każdy zawiera: - 8 GPU MI300X połączonych z InfinityFabric - 8 interkonektów międzywęzłowych Pollara 400Gbps - 2 procesory Intel Xeon Platinum 8570 Węzły są połączone w topologii tylko na szynach o dwóch poziomach.

Przeprowadziliśmy współprojektowanie, aby skrócić czas szkolenia: - Kernels dla RMSNorm + iteracja Newtona-Schulza Muona - Aegis, nasz zautomatyzowany system odporności na błędy, aby zapewnić wysoką dostępność - Rozproszone punktowanie kontrolne i przekształcanie - Nowatorskie schematy równoległości dla CP i rozproszonego Muona

ZAYA1-base wypada bardzo dobrze w porównaniu do podobnych modeli, co czyni go solidnym modelem bazowym dla naszego późniejszego treningu.

Pomimo zaledwie 760M aktywnych parametrów, ZAYA1-base przewyższa gęste modele takie jak Llama-3-8B i jest konkurencyjny z Qwen3-4B oraz Gemma3-12B w testach matematycznych i programistycznych. W ustawieniach wysokiego pass@k, model bazowy zbliża się do wydajności wyspecjalizowanych modeli rozumowania.

29,81K

Najlepsze

Ranking

Ulubione