Inferência MoE escalável geralmente é comunicação + bounding KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivos e desequilíbrio, e os retardatários do prefill podem travar um grupo inteiro de EP. Novos resultados de benchmarks comunitários para vLLM wide-EP em múltiplos nós H200 (Coreweave, Infiniband + ConnectX-7): - Sustentado ~2,2k tokens/s por GPU H200 (aumento em relação a ~1,5k tokens/s por GPU anteriormente) No post, compartilhamos as principais partes que possibilitam isso: - Wide-EP ('--enable-expert-parallel') para eficiência de MoE no estilo DeepSeek + MLA KV - DeepEP all-to-all, Dual-batch Overlap (DBO) e Expert Parallel Load Balancing (EPLB) - Caminhos de prepreenchimento/decodificação e implantação via llm-d, NVIDIA Dynamo e Ray Serve LLM