熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們與 @AMD 和 @IBM 合作,@ZyphraAI 正在分享 ZAYA1-base!這是第一個在整合的 AMD 硬體、軟體和網路堆疊上運行的大型模型。ZAYA1 使用 Zyphra 的新型 MoE 架構,擁有 760M 的活躍參數和 8.3B 的總參數。
技術論文及更多內容如下👇

PR:
技術部落格:
技術論文:
Hugging Face:
在架構上,ZAYA1 遵循我們的 "MoE++" 配方:
- 壓縮卷積注意力 (CCA) []
- 新的 ZAYA1 路由器
- 每層的殘差縮放與學習閘
這些在標準 MoE 之上提供了更好的縮放曲線(每 FLOP 和每參數)。

ZAYA1 路由器用以下方式取代傳統的線性路由器:
- 向下投影殘差流
- 應用指數深度平均 (EDA) 來混合各層的資訊
- 每個專家使用 3 層 MLP
- 使用受控制理論啟發的平衡方案,保持專家既忙碌又專業
訓練配方:
- 總共 14T 代幣
- 3 個階段:以網頁為重的預訓練 → 數學/程式碼/結構為重的階段 → 長上下文 + 推理的中期訓練
- 課程隨著時間推移轉向密集的 STEM + 推理數據
- 上下文擴展從 4k → 32k,通過上下文平行 CCA

我們的叢集由 @IBMcloud 托管,包含 128 個計算節點,每個節點包含:
- 8 個 MI300X GPU,通過 InfinityFabric 互連
- 8 個 Pollara 400Gbps 節點間互連
- 2 個 Intel Xeon Platinum 8570 CPU
節點以雙層軌道拓撲連接。

我們進行了共同設計以縮短訓練時間:
- RMSNorm 的核心 + Muon 的牛頓-舒爾茨迭代
- Aegis,我們的自動容錯系統以確保高正常運行時間
- 分佈式檢查點和重塑
- CP 和分佈式 Muon 的新型並行方案

ZAYA1-base 相較於類似模型表現強勁,成為我們後續後訓練的堅實基礎模型。

儘管只有760M的活躍參數,ZAYA1-base在數學和編碼基準上超越了像Llama-3-8B這樣的密集模型,並且在與Qwen3-4B和Gemma3-12B的競爭中表現出色。在高pass@k設置中,基礎模型的性能接近專門推理模型。

50.85K
熱門
排行
收藏

