MoE çıkarımını ölçeklendirmek genellikle iletişim + KV-önbelleğe bağlıdır: uzman paralelliğini zorladığınızda, kod çözme kolektifler ve dengesizlikler tarafından domine edilebilir ve ön doldurma gecikmeleri tüm EP grubunu durdurabilir. Çok düğümlü H200 (Coreweave, Infiniband + ConnectX-7) üzerinde vLLM geniş-EP için yeni topluluk karşılaştırma sonuçları: - H200 GPU başına sürekli ~2.2k token/s (önceki ~1.5k token/s GPU başına artış) Yazıda bunu mümkün kılan temel parçaları paylaşıyoruz: - DeepSeek tarzı MoE + MLA KV verimliliği için Wide-EP ('-enable-expert-parallel') - DeepEP hepsine hepsi, çift partili örtüşme (DBO) ve Uzman Paralel Yük Dengeleme (EPLB) - llm-d, NVIDIA Dynamo ve Ray Serve LLM üzerinden ön doldurma/kod çözme ayrıştırma ve dağıtım yolları