La escalabilidad de la inferencia de MoE a menudo está limitada por la comunicación + el caché KV: una vez que impulsas el paralelismo de expertos, la decodificación puede verse dominada por colectivas y desequilibrios, y los retrasos en el prellenado pueden paralizar a todo un grupo de EP. Nuevos resultados de referencia de la comunidad para vLLM wide-EP en H200 de múltiples nodos (Coreweave, Infiniband + ConnectX-7): - Sostenido ~2.2k tokens/s por GPU H200 (aumentando desde ~1.5k tokens/s por GPU anteriormente) En la publicación compartimos las piezas clave que permiten esto: - Wide-EP (`--enable-expert-parallel`) para la eficiencia de MoE estilo DeepSeek + MLA KV - DeepEP all-to-all, superposición de doble lote (DBO) y balanceo de carga paralelo de expertos (EPLB) - Desagregación y rutas de implementación de Prefill/Decode a través de llm-d, NVIDIA Dynamo y Ray Serve LLM