一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

擴展 MoE 推理通常受限於通信 + KV 緩存：一旦推動專家並行，解碼可能會受到集體操作和不平衡的主導，而預填充的延遲者可能會使整個 EP 群組停滯。關於在多節點 H200（Coreweave，Infiniband + ConnectX-7）上進行 vLLM 寬 EP 的新社區基準結果： - 每個 H200 GPU 持續約 2.2k tokens/s（較早期的每 GPU 約 1.5k tokens/s 有所上升）在這篇文章中，我們分享了使這一切成為可能的關鍵要素： - 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率 - DeepEP 全到全，雙批重疊（DBO）和專家並行負載平衡（EPLB） - 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑