A escalabilidade da inferência MoE é frequentemente limitada pela comunicação + KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivas e desequilíbrios, e os estranguladores de pré-preenchimento podem paralisar todo um grupo de EP. Novos resultados de benchmark da comunidade para vLLM wide-EP em H200 multi-nóde (Coreweave, Infiniband + ConnectX-7): - Sustentado ~2.2k tokens/s por GPU H200 (aumentando de ~1.5k tokens/s por GPU anteriormente) No post, compartilhamos as peças-chave que possibilitam isso: - Wide-EP (`--enable-expert-parallel`) para eficiência de MoE estilo DeepSeek + MLA KV - DeepEP all-to-all, sobreposição de dupla-batch (DBO) e balanceamento de carga paralelo de especialistas (EPLB) - Desagregação e caminhos de implantação de pré-preenchimento/decodificação via llm-d, NVIDIA Dynamo e Ray Serve LLM