DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi | OKX Web3 Cüzdan

Trend Olan Konular

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+%17,71

#

Boop.Fun leading the way with a new launchpad on Solana.

header

vLLM

vLLM

vLLM19 Ara 00:45

MoE çıkarımını ölçeklendirmek genellikle iletişim + KV-önbelleğe bağlıdır: uzman paralelliğini zorladığınızda, kod çözme kolektifler ve dengesizlikler tarafından domine edilebilir ve ön doldurma gecikmeleri tüm EP grubunu durdurabilir. Çok düğümlü H200 (Coreweave, Infiniband + ConnectX-7) üzerinde vLLM geniş-EP için yeni topluluk karşılaştırma sonuçları: - H200 GPU başına sürekli ~2.2k token/s (önceki ~1.5k token/s GPU başına artış) Yazıda bunu mümkün kılan temel parçaları paylaşıyoruz: - DeepSeek tarzı MoE + MLA KV verimliliği için Wide-EP ('-enable-expert-parallel') - DeepEP hepsine hepsi, çift partili örtüşme (DBO) ve Uzman Paralel Yük Dengeleme (EPLB) - llm-d, NVIDIA Dynamo ve Ray Serve LLM üzerinden ön doldurma/kod çözme ayrıştırma ve dağıtım yolları

12

vLLM

vLLM18 Ara 08:29

vLLM, aynı GPU platformuyla daha da fazla çıkarım performansı sağlıyor. Sadece 1 ay içinde, NVIDIA ile birlikte GPU başına Blackwell@nvidia maksimum veri verimliliğini %33'e kadar artırdık — token başına maliyeti önemli ölçüde azaltarak — aynı zamanda derin PyTorch entegrasyonu ve iş birliğiyle desteklenen en gecikme hassasiyetli kullanım alanları için daha yüksek zirve hızını da mümkün kıldık.

23

vLLM

vLLM8 Ara 21:18

🎉GLM-4.6V ve GLM-4.6V-Flash'ın lansmanı nedeniyle @Zai_org ekibini tebrikler — kendi GPU'larında çalıştırmak isteyen ekipler için vLLM Tarifleri'nde 0. gün servis desteği var. GLM-4.6V, uzun bağlam ve yerel araç/fonksiyon çağrısı ile yüksek kaliteli çoklu modal akıl yürütmeye odaklanırken, GLM-4.6V-Flash daha düşük gecikme ve daha küçük tabanlı dağıtımlar için ayarlanmış bir 9B varyantıdır; yeni vLLM Tarifimiz çalışmaya hazır yapılandırmalar, çoklu GPU rehberliği ve üretim odaklı varsayılan ayarları sunar. Çıkarım hizmetleri kuruyorsanız ve GLM-4.6V yığınınıza eklemek istiyorsanız, buradan başlayın:

Z.ai

Z.ai8 Ara 20:14

GLM-4.6V Serisi burada🚀 - GLM-4.6V (106B): 128K bağlamlı amiral gemisi vizyon-dil modeli - GLM-4.6V-Flash (9B): yerel ve düşük gecikmeli iş yükleri için ultra hızlı, hafif versiyon GLM vizyon model ailesinde ilk yerel Fonksiyon Çağrısı Ağırlık: Şimdi GLM-4.6V'yi deneyin: UPA: Teknoloji Blogu: API Fiyatlandırması (1 milyon token başı): - GLM-4.6V: $0.6 giriş / $0.9 çıkış - GLM-4.6V-Flash: Ücretsiz

213

En İyiler

Sıralama

Takip Listesi

©2017 - 2025 WEB3.OKX.COM

Türkçe 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska

OKX Web3 Hakkında Daha Fazla Bilgi

İndir Akademi Hakkımızda Kariyer Bize Ulaşın Hizmet şartları Gizlilik Bildirimi X (eski adıyla Twitter)

Ürün

Cüzdan Paneli Swap Pazar Yeri Birikim Keşfet Geliştirici Merkezi Gezgin Güvenlik

Destek

Destek Merkezi Resmî Kanal Doğrulama Duyurular DEX ücret tablosu OKX Toplulukları Bitcoin Cüzdanı Ethereum cüzdanı Solana cüzdanı