擴展 MoE 推理通常受限於通信 + KV 緩存:一旦推動專家並行,解碼可能會受到集體操作和不平衡的主導,而預填充的延遲者可能會使整個 EP 群組停滯。 關於在多節點 H200(Coreweave,Infiniband + ConnectX-7)上進行 vLLM 寬 EP 的新社區基準結果: - 每個 H200 GPU 持續約 2.2k tokens/s(較早期的每 GPU 約 1.5k tokens/s 有所上升) 在這篇文章中,我們分享了使這一切成為可能的關鍵要素: - 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率 - DeepEP 全到全,雙批重疊(DBO)和專家並行負載平衡(EPLB) - 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑