MoE çıkarımını ölçeklendirmek genellikle iletişim + KV-önbelleğe bağlıdır: uzman paralelliğini zorladığınızda, kod çözme kolektifler ve dengesizlikler tarafından domine edilebilir ve ön doldurma gecikmeleri tüm EP grubunu durdurabilir.
Çok düğümlü H200 (Coreweave, Infiniband + ConnectX-7) üzerinde vLLM geniş-EP için yeni topluluk karşılaştırma sonuçları:
- H200 GPU başına sürekli ~2.2k token/s (önceki ~1.5k token/s GPU başına artış)
Yazıda bunu mümkün kılan temel parçaları paylaşıyoruz:
- DeepSeek tarzı MoE + MLA KV verimliliği için Wide-EP ('-enable-expert-parallel')
- DeepEP hepsine hepsi, çift partili örtüşme (DBO) ve Uzman Paralel Yük Dengeleme (EPLB)
- llm-d, NVIDIA Dynamo ve Ray Serve LLM üzerinden ön doldurma/kod çözme ayrıştırma ve dağıtım yolları
vLLM, aynı GPU platformuyla daha da fazla çıkarım performansı sağlıyor.
Sadece 1 ay içinde, NVIDIA ile birlikte GPU başına Blackwell@nvidia maksimum veri verimliliğini %33'e kadar artırdık — token başına maliyeti önemli ölçüde azaltarak — aynı zamanda derin PyTorch entegrasyonu ve iş birliğiyle desteklenen en gecikme hassasiyetli kullanım alanları için daha yüksek zirve hızını da mümkün kıldık.
🎉GLM-4.6V ve GLM-4.6V-Flash'ın lansmanı nedeniyle @Zai_org ekibini tebrikler — kendi GPU'larında çalıştırmak isteyen ekipler için vLLM Tarifleri'nde 0. gün servis desteği var.
GLM-4.6V, uzun bağlam ve yerel araç/fonksiyon çağrısı ile yüksek kaliteli çoklu modal akıl yürütmeye odaklanırken, GLM-4.6V-Flash daha düşük gecikme ve daha küçük tabanlı dağıtımlar için ayarlanmış bir 9B varyantıdır; yeni vLLM Tarifimiz çalışmaya hazır yapılandırmalar, çoklu GPU rehberliği ve üretim odaklı varsayılan ayarları sunar.
Çıkarım hizmetleri kuruyorsanız ve GLM-4.6V yığınınıza eklemek istiyorsanız, buradan başlayın:
GLM-4.6V Serisi burada🚀
- GLM-4.6V (106B): 128K bağlamlı amiral gemisi vizyon-dil modeli
- GLM-4.6V-Flash (9B): yerel ve düşük gecikmeli iş yükleri için ultra hızlı, hafif versiyon
GLM vizyon model ailesinde ilk yerel Fonksiyon Çağrısı
Ağırlık:
Şimdi GLM-4.6V'yi deneyin:
UPA:
Teknoloji Blogu:
API Fiyatlandırması (1 milyon token başı):
- GLM-4.6V: $0.6 giriş / $0.9 çıkış
- GLM-4.6V-Flash: Ücretsiz