Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Het schalen van MoE-inferentie is vaak communicatie + KV-cache gebonden: zodra je expert-parallelisme toepast, kan decoderen gedomineerd worden door collectieven en onevenwichtigheid, en kunnen prefill-stragglers een hele EP-groep stilleggen.
Nieuwe community benchmarkresultaten voor vLLM wide-EP op multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Duurzaam ~2.2k tokens/s per H200 GPU (stijging van eerder ~1.5k tokens/s per GPU)
In de post delen we de belangrijkste onderdelen die dit mogelijk maken:
- Wide-EP (`--enable-expert-parallel`) voor DeepSeek-stijl MoE + MLA KV-efficiëntie
- DeepEP all-to-all, Dual-batch Overlap (DBO) en Expert Parallel Load Balancing (EPLB)
- Prefill/Decode ontkoppeling en implementatiepaden via llm-d, NVIDIA Dynamo en Ray Serve LLM
82
vLLM levert nog meer inferentieprestaties met hetzelfde GPU-platform.
In slechts 1 maand hebben we samengewerkt met NVIDIA om de maximale doorvoer per GPU van @nvidia Blackwell met tot 33% te verhogen -- wat de kosten per token aanzienlijk verlaagt -- terwijl we ook nog hogere pieksnelheden mogelijk maken voor de meest latentiegevoelige gebruiksscenario's, aangedreven door diepe PyTorch-integratie en samenwerking.

124
🎉Gefeliciteerd aan het @Zai_org team met de lancering van GLM-4.6V en GLM-4.6V-Flash — met ondersteuning voor day-0 in vLLM Recipes voor teams die ze op hun eigen GPU's willen draaien.
GLM-4.6V richt zich op hoogwaardige multimodale redenering met lange context en native tool/functie-aanroepen, terwijl GLM-4.6V-Flash een 9B variant is die is afgestemd op lagere latentie en kleinere implementaties; onze nieuwe vLLM Recipe levert kant-en-klare configuraties, multi-GPU begeleiding en productiegerichte standaardinstellingen.
Als je inferentiediensten bouwt en GLM-4.6V in je stack wilt, begin hier:


Z.ai8 dec, 20:14
GLM-4.6V Serie is hier🚀
- GLM-4.6V (106B): vlaggenschip visie-taalmodel met 128K context
- GLM-4.6V-Flash (9B): ultra-snelle, lichte versie voor lokale en low-latency workloads
Eerste native Function Calling in de GLM visie model familie
Gewichten:
Probeer GLM-4.6V nu:
API:
Tech Blog:
API Prijzen (per 1M tokens):
- GLM-4.6V: $0.6 input / $0.9 output
- GLM-4.6V-Flash: Gratis

276
Boven
Positie
Favorieten
