Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalowanie wnioskowania MoE często jest ograniczone przez komunikację + pamięć podręczną KV: gdy tylko zwiększysz równoległość ekspertów, dekodowanie może być zdominowane przez operacje zbiorcze i nierównowagę, a opóźnienia w wypełnianiu mogą zablokować całą grupę EP.
Nowe wyniki benchmarków społeczności dla vLLM wide-EP na wielowęzłowym H200 (Coreweave, Infiniband + ConnectX-7):
- Utrzymane ~2,2k tokenów/s na GPU H200 (wzrost z wcześniejszych ~1,5k tokenów/s na GPU)
W poście dzielimy się kluczowymi elementami, które to umożliwiają:
- Wide-EP (`--enable-expert-parallel`) dla efektywności MoE w stylu DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) i Równoważenie obciążenia równoległych ekspertów (EPLB)
- Rozdzielenie wypełniania/dekodowania i ścieżki wdrożeniowe za pomocą llm-d, NVIDIA Dynamo i Ray Serve LLM
Najlepsze
Ranking
Ulubione
