Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ve spolupráci s @AMD a @IBM @ZyphraAI sdílíme ZAYA1-base! První velkoplošný model na integrovaném hardwarovém, softwarovém a síťovém stacku AMD. ZAYA1 využívá novou architekturu MoE od Zyphry s 760M aktivními a 8,3B celkovými parametry.
Technický článek a další👇 níže

PR:
Technický blog:
Technický článek:
Objímající obličej:
Architektonicky ZAYA1 následuje náš recept "MoE++":
- Komprimovaná konvoluční pozornost (CCA) []
- Nový router ZAYA1
- Škálování reziduí na vrstvu s naučenými hradly
Tyto poskytují lepší škálovací křivky (na FLOP a na parametr) než standardní MoE.

Router ZAYA1 nahrazuje tradiční lineární frézy následujícími:
- Zbytkový tok v nižších projektech
- Aplikace exponenciálního průměrování hloubky (EDA) pro míchání informací napříč vrstvami
- 3-vrstvové MLP na experta
- Používá vyvažovací schéma inspirované teorií řízení, aby udrželo odborníky zaměstnané i specializované
Tréninkový recept:
- celkem 14T tokenů
- 3 fáze: webově náročný pretrain → fáze s velkým množstvím matematiky/kódu/strukturovaných → dlouhý kontext + uvažování během procesu
- Učební plán se postupně posouvá směrem k hustým STEM + datům uvažování
- Rozšíření kontextu z 4k → 32k pomocí kontextově paralelního CCA

Náš cluster, hostovaný @IBMcloud, se skládá ze 128 výpočetních uzlů, z nichž každý obsahuje:
- 8 GPU MI300X propojených s InfinityFabric
- 8 Pollara 400Gbps meziuzlová propojení
- 2 CPU Intel Xeon Platinum 8570
Uzly jsou propojeny v topologii pouze dvouúrovňové kolejnice.

Provedli jsme společný návrh na zkrácení doby školení:
- Jádra pro Newton-Schulzovu iteraci RMSNorm + Muon
- Aegis, náš automatizovaný systém odolnosti vůči chybám pro zajištění vysoké dostupnosti
- Distribuované kontrolní body a přetváření
- Nové paralelistické schémata pro CP a distribuovaný mion

ZAYA1-base dosahuje silných výsledků ve srovnání s podobnými modely, což z něj činí silný základ pro naše následné následné trénování.

Přestože je pouze 760 milionů aktivních parametrů, základ ZAYA1 překonává husté modely jako Llama-3-8B a je konkurenceschopný s Qwen3-4B a Gemma3-12B v matematických a programovacích benchmarkech. V podmínkách s vysokou pass@k se základní model blíží výkonu specializovaných modelů uvažování.

42,47K
Top
Hodnocení
Oblíbené

