Масштабирование вывода MoE часто ограничено коммуникацией + KV-кэшем: как только вы увеличиваете параллелизм экспертов, декодирование может стать доминирующим из-за коллективов и дисбаланса, а задержки при предварительном заполнении могут остановить целую группу EP. Новые результаты общественного бенчмарка для vLLM wide-EP на многопроцессорной H200 (Coreweave, Infiniband + ConnectX-7): - Устойчивые ~2.2k токенов/с на каждый GPU H200 (выросло с ~1.5k токенов/с на GPU) В посте мы делимся ключевыми элементами, которые это обеспечивают: - Wide-EP (`--enable-expert-parallel`) для MoE в стиле DeepSeek + эффективность MLA KV - DeepEP all-to-all, перекрытие двойной партии (DBO) и балансировка нагрузки экспертов (EPLB) - Диссоциация и пути развертывания Prefill/Decode через llm-d, NVIDIA Dynamo и Ray Serve LLM