Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'inférence MoE à grande échelle est souvent limitée par la communication et le cache KV : une fois que vous poussez le parallélisme des experts, le décodage peut être dominé par les collectifs et le déséquilibre, et les retards de pré-remplissage peuvent bloquer tout un groupe EP.
De nouveaux résultats de référence de la communauté pour vLLM wide-EP sur H200 multi-nœuds (Coreweave, Infiniband + ConnectX-7) :
- Environ 2,2k tokens/s soutenus par GPU H200 (contre environ 1,5k tokens/s par GPU auparavant)
Dans le post, nous partageons les éléments clés qui permettent cela :
- Wide-EP (`--enable-expert-parallel`) pour l'efficacité MoE de style DeepSeek + MLA KV
- DeepEP all-to-all, chevauchement de double lot (DBO) et équilibrage de charge parallèle des experts (EPLB)
- Désagrégation et chemins de déploiement Pré-remplissage/Décodage via llm-d, NVIDIA Dynamo et Ray Serve LLM
Meilleurs
Classement
Favoris
