一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

我们刚刚找到了在1.3秒内在GPU之间传输ONE万亿个参数的方法。这比传统方法快了20倍。让我来告诉你我们是怎么做到的：

1/ 问题在使用强化学习训练大型AI模型时，需要两个独立的GPU集群协同工作：更新模型的训练GPU和运行模型的推理GPU。在每个训练步骤之后，您必须将所有更新的权重从训练复制到推理。对于万亿参数的模型，大多数系统需要30秒到几分钟来完成这一操作。这造成了巨大的瓶颈。您的训练步骤可能只需5秒，但随后您需要等待30秒来复制权重。

1/ 问题当我们使用强化学习训练大规模AI模型时，我们需要两个独立的GPU集群协同工作：更新模型的训练GPU和运行模型的推理GPU。在每个训练步骤之后，我们必须将所有更新的权重从训练复制到推理。对于我们拥有万亿参数的Kimi-K2模型，大多数现有系统需要30秒到几分钟来完成这一过程。这造成了巨大的瓶颈。我们的训练步骤可能只需5秒，但随后我们需要等待30秒来复制权重。这是不可接受的。

2/ 旧方式传统系统将所有内容通过一个“rank-0” GPU 汇聚。所有训练 GPU 都发送到一个主 GPU，然后主 GPU 再发送到一个推理 GPU，最后分发给其余的 GPU。这就像强迫所有邮件都通过一个邮局。那一个连接成为了瓶颈——限制在每秒大约 50 吉字节。我们知道必须有更好的方法。

3/ 我们的突破我们的解决方案：RDMA WRITE - 远程直接内存访问。通过RDMA，我们的训练GPU可以直接写入推理GPU的内存。没有中介。无需请求许可。我们只需将数据直接传送到另一台计算机的RAM中。接收GPU甚至不会收到通知。这是一个“单方面”的操作。关键在于：每个训练GPU都可以直接与每个推理GPU通信。所有操作同时进行。并行处理。我们充分利用整个网络结构，而不是在单一链路上造成瓶颈。我们还使用流水线技术 - 将传输分解为重叠的阶段，以便不同的硬件资源可以同时保持忙碌。此外，我们在启动时计算传输计划，并只需重放它。没有重复的规划开销。

4/ 我们的结果对于 Kimi-K2，拥有 1 万亿个参数：从 256 个训练 GPU 转移到 128 个推理 GPU 需要 1.3 秒。这意味着在短短一秒多一点的时间内移动约 2 TB 的数据。通过网络。在机器之间。当我们每小时在 GPU 集群上花费数千美元时，消除这个瓶颈意味着巨大的成本节省和更快的迭代周期。

4/ 我们的结果对于 Kimi-K2，拥有 1 万亿个参数：从 256 个训练 GPU 转移到 128 个推理 GPU 需要 1.3 秒。这意味着在短短一秒多一点的时间内移动约 2 TB 的数据。通过网络。在机器之间。当我们每小时在 GPU 集群上花费数千美元时，消除这个瓶颈意味着巨大的成本节省和更快的迭代周期。

5/ 为什么这很重要优雅的部分？我们并没有发明新的硬件。我们只是利用了现有的 RDMA 技术和智能系统工程。有时候，最好的解决方案并不是发明一些新东西——而是非常非常好地使用现有工具。这就是我们在 Perplexity 的构建方式。

这就是我们重量转移系统的高层概述。但我相信你们都有问题，对吧？随便问我任何问题。