MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän. Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7): - Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU) Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän: - Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen - DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB) - Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta