Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Масштабирование вывода MoE часто ограничено коммуникацией + KV-кэшем: как только вы увеличиваете параллелизм экспертов, декодирование может стать доминирующим из-за коллективов и дисбаланса, а задержки при предварительном заполнении могут остановить целую группу EP.
Новые результаты общественного бенчмарка для vLLM wide-EP на многопроцессорной H200 (Coreweave, Infiniband + ConnectX-7):
- Устойчивые ~2.2k токенов/с на каждый GPU H200 (выросло с ~1.5k токенов/с на GPU)
В посте мы делимся ключевыми элементами, которые это обеспечивают:
- Wide-EP (`--enable-expert-parallel`) для MoE в стиле DeepSeek + эффективность MLA KV
- DeepEP all-to-all, перекрытие двойной партии (DBO) и балансировка нагрузки экспертов (EPLB)
- Диссоциация и пути развертывания Prefill/Decode через llm-d, NVIDIA Dynamo и Ray Serve LLM
Топ
Рейтинг
Избранное
