一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

我們剛剛找到了在1.3秒內在GPU之間傳輸ONE TRILLION個參數的方法。這比傳統方法快了20倍。讓我來告訴你我們是怎麼做到的：

1/ 問題在使用強化學習訓練大型 AI 模型時，需要兩個獨立的 GPU 集群協同工作：訓練 GPU 用於更新模型，推理 GPU 用於運行模型。在每次訓練步驟後，必須將所有更新的權重從訓練複製到推理。對於萬億參數的模型，大多數系統需要 30 秒到幾分鐘來完成這個過程。這是一個巨大的瓶頸。你的訓練步驟可能只需 5 秒，但接下來你卻要等待 30 秒來複製權重。

1/ 問題當我們使用強化學習訓練大型 AI 模型時，我們需要兩個獨立的 GPU 集群協同工作：訓練 GPU 用於更新模型，推理 GPU 用於運行模型。在每次訓練步驟後，我們必須將所有更新的權重從訓練複製到推理。對於我們的萬億參數 Kimi-K2 模型，大多數現有系統需要 30 秒到幾分鐘來完成這個過程。這是一個巨大的瓶頸。我們的訓練步驟可能只需 5 秒，但接下來我們卻要等待 30 秒來複製權重。這是不可接受的。

2/ 傳統方式傳統系統將所有內容通過一個“rank-0” GPU。所有訓練 GPU 都發送到一個主 GPU，然後該主 GPU 再發送到一個推理 GPU，最後將結果分發給其餘的 GPU。這就像強迫所有郵件都經過一個郵局。那一個連接成為瓶頸 - 限制在每秒約 50 GB。我們知道必須有更好的方法。

3/ 我們的突破我們的解決方案：RDMA WRITE - 遠程直接內存訪問。使用 RDMA，我們的訓練 GPU 可以直接寫入推理 GPU 的內存。沒有中介。無需請求許可。我們只是將數據直接傳送到另一台計算機的 RAM 中。接收的 GPU 甚至不會收到通知。這是一個「單方面」的操作。關鍵在於：每個訓練 GPU 都可以直接與每個推理 GPU 通信。所有同時進行。並行處理。我們充分利用整個網絡結構，而不是在單一鏈路上造成瓶頸。我們還使用管道技術 - 將傳輸分解為重疊的階段，以便不同的硬件資源可以同時保持忙碌。此外，我們在啟動時計算傳輸計劃，然後只需重播它。無需重複的計劃開銷。

4/ 我們的結果對於擁有 1 兆參數的 Kimi-K2：從 256 個訓練 GPU 轉移到 128 個推理 GPU 需要 1.3 秒。這意味著在一秒多一點的時間內移動約 2 TB 的數據。通過網絡。在機器之間。當我們每小時在 GPU 集群上燒掉數千美元時，消除這個瓶頸意味著巨大的成本節省和更快的迭代周期。

4/ 我們的結果對於擁有 1 兆參數的 Kimi-K2：從 256 個訓練 GPU 轉移到 128 個推理 GPU 需要 1.3 秒。這意味著在一秒多一點的時間內移動約 2 TB 的數據。通過網絡。在機器之間。當我們每小時在 GPU 集群上燒掉數千美元時，消除這個瓶頸意味著巨大的成本節省和更快的迭代周期。

5/ 為什麼這很重要優雅的部分？我們並沒有發明新的硬體。我們只是利用現有的 RDMA 技術和智能系統工程。有時候，最好的解決方案並不是發明一些新的東西 - 而是非常非常好地使用現有的工具。這就是我們在 Perplexity 的建設方式。

這就是我們重量轉移系統的高層次概述。但我相信你們都有問題，對吧？隨便問我任何問題。