Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän.
Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7):
- Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU)
Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän:
- Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen
- DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB)
- Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta
Johtavat
Rankkaus
Suosikit
