一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

与 @AMD 和 @IBM 合作，我们 @ZyphraAI 正在分享 ZAYA1-base！这是第一个在集成的 AMD 硬件、软件和网络堆栈上运行的大规模模型。ZAYA1 使用 Zyphra 的新型 MoE 架构，具有 760M 的活跃参数和 8.3B 的总参数。技术论文及更多内容如下👇

PR: 技术博客: 技术论文: Hugging Face:

在架构上，ZAYA1 遵循我们的 “MoE++” 配方： - 压缩卷积注意力 (CCA) [] - 新的 ZAYA1 路由器 - 每层残差缩放与学习门这些在标准 MoE 的每 FLOP 和每参数的缩放曲线上表现更佳。

ZAYA1 路由器用以下方式取代传统线性路由器： - 向下投影残余流 - 应用指数深度平均（EDA）在层之间混合信息 - 每个专家使用 3 层 MLP - 使用受控制理论启发的平衡方案，使专家既忙碌又专业化

训练配方： - 总共 14T 代币 - 3 个阶段：以网络为重的预训练 → 数学/代码/结构为重的阶段 → 长上下文 + 推理的中期训练 - 课程随着时间的推移转向密集的 STEM + 推理数据 - 上下文扩展从 4k → 32k，通过上下文并行 CCA

我们的集群由 @IBMcloud 托管，由 128 个计算节点组成，每个节点包含： - 8 个 MI300X GPU，通过 InfinityFabric 互连 - 8 个 Pollara 400Gbps 节点间互连 - 2 个 Intel Xeon Platinum 8570 CPU 节点以双层轨道拓扑连接。

我们进行了共同设计以减少训练时间： - RMSNorm 的内核 + Muon 的牛顿-舒尔茨迭代 - Aegis，我们的自动容错系统以确保高正常运行时间 - 分布式检查点和重塑 - CP 和分布式 Muon 的新型并行方案

ZAYA1-base 相较于类似模型表现出色，成为我们后续后训练的强大基础模型。

尽管只有760M的活跃参数，ZAYA1-base在数学和编码基准测试中超越了Llama-3-8B等稠密模型，并且在与Qwen3-4B和Gemma3-12B的竞争中表现出色。在高pass@k设置中，基础模型接近专业推理模型的性能。

50.85K