Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MoE çıkarımını ölçeklendirmek genellikle iletişim + KV-önbelleğe bağlıdır: uzman paralelliğini zorladığınızda, kod çözme kolektifler ve dengesizlikler tarafından domine edilebilir ve ön doldurma gecikmeleri tüm EP grubunu durdurabilir.
Çok düğümlü H200 (Coreweave, Infiniband + ConnectX-7) üzerinde vLLM geniş-EP için yeni topluluk karşılaştırma sonuçları:
- H200 GPU başına sürekli ~2.2k token/s (önceki ~1.5k token/s GPU başına artış)
Yazıda bunu mümkün kılan temel parçaları paylaşıyoruz:
- DeepSeek tarzı MoE + MLA KV verimliliği için Wide-EP ('-enable-expert-parallel')
- DeepEP hepsine hepsi, çift partili örtüşme (DBO) ve Uzman Paralel Yük Dengeleme (EPLB)
- llm-d, NVIDIA Dynamo ve Ray Serve LLM üzerinden ön doldurma/kod çözme ayrıştırma ve dağıtım yolları
En İyiler
Sıralama
Takip Listesi
