Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La escalabilidad de la inferencia de MoE a menudo está limitada por la comunicación + el caché KV: una vez que impulsas el paralelismo de expertos, la decodificación puede verse dominada por colectivas y desequilibrios, y los retrasos en el prellenado pueden paralizar a todo un grupo de EP.
Nuevos resultados de referencia de la comunidad para vLLM wide-EP en H200 de múltiples nodos (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.2k tokens/s por GPU H200 (aumentando desde ~1.5k tokens/s por GPU anteriormente)
En la publicación compartimos las piezas clave que permiten esto:
- Wide-EP (`--enable-expert-parallel`) para la eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, superposición de doble lote (DBO) y balanceo de carga paralelo de expertos (EPLB)
- Desagregación y rutas de implementación de Prefill/Decode a través de llm-d, NVIDIA Dynamo y Ray Serve LLM
Parte superior
Clasificación
Favoritos
