Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Die Skalierung der MoE-Inferenz ist oft durch Kommunikation + KV-Cache begrenzt: Sobald Sie die Expertenparallelität vorantreiben, kann das Decodieren von Kollektiven und Ungleichgewichten dominiert werden, und Prefill-Stragglers können eine gesamte EP-Gruppe zum Stillstand bringen.
Neue Benchmark-Ergebnisse der Community für vLLM Wide-EP auf Multi-Node H200 (Coreweave, Infiniband + ConnectX-7):
- Nachhaltige ~2,2k Tokens/s pro H200 GPU (im Vergleich zu früheren ~1,5k Tokens/s pro GPU)
In dem Beitrag teilen wir die Schlüsselfaktoren, die dies ermöglichen:
- Wide-EP (`--enable-expert-parallel`) für DeepSeek-Style MoE + MLA KV-Effizienz
- DeepEP All-to-All, Dual-Batch-Überlappung (DBO) und Expert Parallel Load Balancing (EPLB)
- Prefill/Decode-Dissaggregation und Bereitstellungspfade über llm-d, NVIDIA Dynamo und Ray Serve LLM
15
vLLM bietet mit derselben GPU-Plattform noch mehr Inferenzleistung.
In nur 1 Monat haben wir mit NVIDIA zusammengearbeitet, um den maximalen Durchsatz pro GPU von @nvidia Blackwell um bis zu 33 % zu steigern – was die Kosten pro Token erheblich senkt – und gleichzeitig eine noch höhere Spitzenleistung für die latenzsensibelsten Anwendungsfälle zu ermöglichen, die durch eine tiefe PyTorch-Integration und Zusammenarbeit unterstützt werden.

24
🎉Herzlichen Glückwunsch an das @Zai_org Team zur Einführung von GLM-4.6V und GLM-4.6V-Flash — mit Day-0-Servingsupport in vLLM-Rezepten für Teams, die diese auf ihren eigenen GPUs ausführen möchten.
GLM-4.6V konzentriert sich auf qualitativ hochwertiges multimodales Denken mit langem Kontext und nativen Tool-/Funktionsaufrufen, während GLM-4.6V-Flash eine 9B-Variante ist, die für geringere Latenz und kleinere Bereitstellungen optimiert wurde; unser neues vLLM-Rezept liefert sofort einsatzbereite Konfigurationen, Multi-GPU-Anleitungen und produktionsorientierte Standardeinstellungen.
Wenn Sie Inferenzdienste aufbauen und GLM-4.6V in Ihrem Stack haben möchten, starten Sie hier:


Z.ai8. Dez., 20:14
Die GLM-4.6V-Serie ist da🚀
- GLM-4.6V (106B): Flaggschiff-Vision-Sprachmodell mit 128K Kontext
- GLM-4.6V-Flash (9B): ultra-schnelle, leichte Version für lokale und latenzarme Arbeitslasten
Erste native Funktionsaufrufe in der GLM-Vision-Modellfamilie
Gewichte:
Teste jetzt GLM-4.6V:
API:
Technik-Blog:
API-Preise (pro 1M Tokens):
- GLM-4.6V: 0,6 $ Eingabe / 0,9 $ Ausgabe
- GLM-4.6V-Flash: Kostenlos

214
Top
Ranking
Favoriten
