L'inférence MoE à grande échelle est souvent limitée par la communication et le cache KV : une fois que vous poussez le parallélisme des experts, le décodage peut être dominé par les collectifs et le déséquilibre, et les retards de pré-remplissage peuvent bloquer tout un groupe EP. De nouveaux résultats de référence de la communauté pour vLLM wide-EP sur H200 multi-nœuds (Coreweave, Infiniband + ConnectX-7) : - Environ 2,2k tokens/s soutenus par GPU H200 (contre environ 1,5k tokens/s par GPU auparavant) Dans le post, nous partageons les éléments clés qui permettent cela : - Wide-EP (`--enable-expert-parallel`) pour l'efficacité MoE de style DeepSeek + MLA KV - DeepEP all-to-all, chevauchement de double lot (DBO) et équilibrage de charge parallèle des experts (EPLB) - Désagrégation et chemins de déploiement Pré-remplissage/Décodage via llm-d, NVIDIA Dynamo et Ray Serve LLM