一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們與 @AMD 和 @IBM 合作，@ZyphraAI 正在分享 ZAYA1-base！這是第一個在整合的 AMD 硬體、軟體和網路堆疊上運行的大型模型。ZAYA1 使用 Zyphra 的新型 MoE 架構，擁有 760M 的活躍參數和 8.3B 的總參數。技術論文及更多內容如下👇

PR: 技術部落格: 技術論文: Hugging Face:

在架構上，ZAYA1 遵循我們的 "MoE++" 配方： - 壓縮卷積注意力 (CCA) [] - 新的 ZAYA1 路由器 - 每層的殘差縮放與學習閘這些在標準 MoE 之上提供了更好的縮放曲線（每 FLOP 和每參數）。

ZAYA1 路由器用以下方式取代傳統的線性路由器： - 向下投影殘差流 - 應用指數深度平均 (EDA) 來混合各層的資訊 - 每個專家使用 3 層 MLP - 使用受控制理論啟發的平衡方案，保持專家既忙碌又專業

訓練配方： - 總共 14T 代幣 - 3 個階段：以網頁為重的預訓練 → 數學/程式碼/結構為重的階段 → 長上下文 + 推理的中期訓練 - 課程隨著時間推移轉向密集的 STEM + 推理數據 - 上下文擴展從 4k → 32k，通過上下文平行 CCA

我們的叢集由 @IBMcloud 托管，包含 128 個計算節點，每個節點包含： - 8 個 MI300X GPU，通過 InfinityFabric 互連 - 8 個 Pollara 400Gbps 節點間互連 - 2 個 Intel Xeon Platinum 8570 CPU 節點以雙層軌道拓撲連接。

我們進行了共同設計以縮短訓練時間： - RMSNorm 的核心 + Muon 的牛頓-舒爾茨迭代 - Aegis，我們的自動容錯系統以確保高正常運行時間 - 分佈式檢查點和重塑 - CP 和分佈式 Muon 的新型並行方案

ZAYA1-base 相較於類似模型表現強勁，成為我們後續後訓練的堅實基礎模型。

儘管只有760M的活躍參數，ZAYA1-base在數學和編碼基準上超越了像Llama-3-8B這樣的密集模型，並且在與Qwen3-4B和Gemma3-12B的競爭中表現出色。在高pass@k設置中，基礎模型的性能接近專門推理模型。

50.85K