熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
擴展 MoE 推理通常受限於通信 + KV 緩存:一旦推動專家並行,解碼可能會受到集體操作和不平衡的主導,而預填充的延遲者可能會使整個 EP 群組停滯。
關於在多節點 H200(Coreweave,Infiniband + ConnectX-7)上進行 vLLM 寬 EP 的新社區基準結果:
- 每個 H200 GPU 持續約 2.2k tokens/s(較早期的每 GPU 約 1.5k tokens/s 有所上升)
在這篇文章中,我們分享了使這一切成為可能的關鍵要素:
- 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率
- DeepEP 全到全,雙批重疊(DBO)和專家並行負載平衡(EPLB)
- 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑
熱門
排行
收藏
