Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Inferência MoE escalável geralmente é comunicação + bounding KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivos e desequilíbrio, e os retardatários do prefill podem travar um grupo inteiro de EP.
Novos resultados de benchmarks comunitários para vLLM wide-EP em múltiplos nós H200 (Coreweave, Infiniband + ConnectX-7):
- Sustentado ~2,2k tokens/s por GPU H200 (aumento em relação a ~1,5k tokens/s por GPU anteriormente)
No post, compartilhamos as principais partes que possibilitam isso:
- Wide-EP ('--enable-expert-parallel') para eficiência de MoE no estilo DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) e Expert Parallel Load Balancing (EPLB)
- Caminhos de prepreenchimento/decodificação e implantação via llm-d, NVIDIA Dynamo e Ray Serve LLM
Melhores
Classificação
Favoritos
