DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

Het schalen van MoE-inferentie is vaak communicatie + KV-cache gebonden: zodra je expert-parallelisme toepast, kan decoderen gedomineerd worden door collectieven en onevenwichtigheid, en kunnen prefill-stragglers een hele EP-groep stilleggen. Nieuwe community benchmarkresultaten voor vLLM wide-EP op multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Duurzaam ~2.2k tokens/s per H200 GPU (stijging van eerder ~1.5k tokens/s per GPU) In de post delen we de belangrijkste onderdelen die dit mogelijk maken: - Wide-EP (`--enable-expert-parallel`) voor DeepSeek-stijl MoE + MLA KV-efficiëntie - DeepEP all-to-all, Dual-batch Overlap (DBO) en Expert Parallel Load Balancing (EPLB) - Prefill/Decode ontkoppeling en implementatiepaden via llm-d, NVIDIA Dynamo en Ray Serve LLM

140

vLLM18 dec, 08:29

vLLM levert nog meer inferentieprestaties met hetzelfde GPU-platform. In slechts 1 maand hebben we samengewerkt met NVIDIA om de maximale doorvoer per GPU van @nvidia Blackwell met tot 33% te verhogen -- wat de kosten per token aanzienlijk verlaagt -- terwijl we ook nog hogere pieksnelheden mogelijk maken voor de meest latentiegevoelige gebruiksscenario's, aangedreven door diepe PyTorch-integratie en samenwerking.

174

vLLM8 dec, 21:18

🎉Gefeliciteerd aan het @Zai_org team met de lancering van GLM-4.6V en GLM-4.6V-Flash — met ondersteuning voor day-0 in vLLM Recipes voor teams die ze op hun eigen GPU's willen draaien. GLM-4.6V richt zich op hoogwaardige multimodale redenering met lange context en native tool/functie-aanroepen, terwijl GLM-4.6V-Flash een 9B variant is die is afgestemd op lagere latentie en kleinere implementaties; onze nieuwe vLLM Recipe levert kant-en-klare configuraties, multi-GPU begeleiding en productiegerichte standaardinstellingen. Als je inferentiediensten bouwt en GLM-4.6V in je stack wilt, begin hier:

Z.ai8 dec, 20:14

GLM-4.6V Serie is hier🚀 - GLM-4.6V (106B): vlaggenschip visie-taalmodel met 128K context - GLM-4.6V-Flash (9B): ultra-snelle, lichte versie voor lokale en low-latency workloads Eerste native Function Calling in de GLM visie model familie Gewichten: Probeer GLM-4.6V nu: API: Tech Blog: API Prijzen (per 1M tokens): - GLM-4.6V: $0.6 input / $0.9 output - GLM-4.6V-Flash: Gratis

328

Boven

Positie

Favorieten

Nederlands 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Meer over OKX Web3

Downloaden Learn Over ons Vacatures Contact Servicevoorwaarden Privacyverklaring X (voorheen Twitter)

Product

Dashboard wallet Swap Marktplaats Earn Ontdekken Samenstellen Verkenner Beveiliging

Ondersteuning

Ondersteuningscentrum Kanaalverificatie Aankondigingen DEX-vergoedingsschema Contact met OKX Bitcoin-wallet Ethereum-wallet Solana-wallet