スケーリングMoE推論はしばしば通信+KVキャッシュに縛られます。エキスパート並列性を押し出すと、デコードは集団や不均衡に支配され、プリフィルの遅れがEPグループ全体を停滞させることがあります。 マルチノードH200(Coreweave、Infiniband + ConnectX-7)におけるvLLMワイドEPの新しいコミュニティベンチマーク結果: - H200 GPUあたり持続約2.2kトークン/秒(以前の約1.5kトークン/秒から増加) この記事では、これを可能にする重要な要素を共有します。 - DeepSeekスタイルのMoE + MLA KV効率のためのワイドEP(「--enable-expert-parallel') - DeepEPオール・トゥ・オール、デュアルバッチオーバーラップ(DBO)、エキスパート並列負荷分散(EPLB) - LLM-d、NVIDIA Dynamo、Ray Serve LLMを介したプリフィル/デコードの分解および展開パス