Skalowanie wnioskowania MoE często jest ograniczone przez komunikację + pamięć podręczną KV: gdy tylko zwiększysz równoległość ekspertów, dekodowanie może być zdominowane przez operacje zbiorcze i nierównowagę, a opóźnienia w wypełnianiu mogą zablokować całą grupę EP. Nowe wyniki benchmarków społeczności dla vLLM wide-EP na wielowęzłowym H200 (Coreweave, Infiniband + ConnectX-7): - Utrzymane ~2,2k tokenów/s na GPU H200 (wzrost z wcześniejszych ~1,5k tokenów/s na GPU) W poście dzielimy się kluczowymi elementami, które to umożliwiają: - Wide-EP (`--enable-expert-parallel`) dla efektywności MoE w stylu DeepSeek + MLA KV - DeepEP all-to-all, Dual-batch Overlap (DBO) i Równoważenie obciążenia równoległych ekspertów (EPLB) - Rozdzielenie wypełniania/dekodowania i ścieżki wdrożeniowe za pomocą llm-d, NVIDIA Dynamo i Ray Serve LLM