热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
与 @AMD 和 @IBM 合作,我们 @ZyphraAI 正在分享 ZAYA1-base!这是第一个在集成的 AMD 硬件、软件和网络堆栈上运行的大规模模型。ZAYA1 使用 Zyphra 的新型 MoE 架构,具有 760M 的活跃参数和 8.3B 的总参数。
技术论文及更多内容如下👇

PR:
技术博客:
技术论文:
Hugging Face:
在架构上,ZAYA1 遵循我们的 “MoE++” 配方:
- 压缩卷积注意力 (CCA) []
- 新的 ZAYA1 路由器
- 每层残差缩放与学习门
这些在标准 MoE 的每 FLOP 和每参数的缩放曲线上表现更佳。

ZAYA1 路由器用以下方式取代传统线性路由器:
- 向下投影残余流
- 应用指数深度平均(EDA)在层之间混合信息
- 每个专家使用 3 层 MLP
- 使用受控制理论启发的平衡方案,使专家既忙碌又专业化
训练配方:
- 总共 14T 代币
- 3 个阶段:以网络为重的预训练 → 数学/代码/结构为重的阶段 → 长上下文 + 推理的中期训练
- 课程随着时间的推移转向密集的 STEM + 推理数据
- 上下文扩展从 4k → 32k,通过上下文并行 CCA

我们的集群由 @IBMcloud 托管,由 128 个计算节点组成,每个节点包含:
- 8 个 MI300X GPU,通过 InfinityFabric 互连
- 8 个 Pollara 400Gbps 节点间互连
- 2 个 Intel Xeon Platinum 8570 CPU
节点以双层轨道拓扑连接。

我们进行了共同设计以减少训练时间:
- RMSNorm 的内核 + Muon 的牛顿-舒尔茨迭代
- Aegis,我们的自动容错系统以确保高正常运行时间
- 分布式检查点和重塑
- CP 和分布式 Muon 的新型并行方案

ZAYA1-base 相较于类似模型表现出色,成为我们后续后训练的强大基础模型。

尽管只有760M的活跃参数,ZAYA1-base在数学和编码基准测试中超越了Llama-3-8B等稠密模型,并且在与Qwen3-4B和Gemma3-12B的竞争中表现出色。在高pass@k设置中,基础模型接近专业推理模型的性能。

50.85K
热门
排行
收藏

