Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A escalabilidade da inferência MoE é frequentemente limitada pela comunicação + KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivas e desequilíbrios, e os estranguladores de pré-preenchimento podem paralisar todo um grupo de EP.
Novos resultados de benchmark da comunidade para vLLM wide-EP em H200 multi-nóde (Coreweave, Infiniband + ConnectX-7):
- Sustentado ~2.2k tokens/s por GPU H200 (aumentando de ~1.5k tokens/s por GPU anteriormente)
No post, compartilhamos as peças-chave que possibilitam isso:
- Wide-EP (`--enable-expert-parallel`) para eficiência de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, sobreposição de dupla-batch (DBO) e balanceamento de carga paralelo de especialistas (EPLB)
- Desagregação e caminhos de implantação de pré-preenchimento/decodificação via llm-d, NVIDIA Dynamo e Ray Serve LLM
Top
Classificação
Favoritos
