Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Skalowanie wnioskowania MoE często jest ograniczone przez komunikację + pamięć podręczną KV: gdy tylko zwiększysz równoległość ekspertów, dekodowanie może być zdominowane przez operacje zbiorcze i nierównowagę, a opóźnienia w wypełnianiu mogą zablokować całą grupę EP.
Nowe wyniki benchmarków społeczności dla vLLM wide-EP na wielowęzłowym H200 (Coreweave, Infiniband + ConnectX-7):
- Utrzymane ~2,2k tokenów/s na GPU H200 (wzrost z wcześniejszych ~1,5k tokenów/s na GPU)
W poście dzielimy się kluczowymi elementami, które to umożliwiają:
- Wide-EP (`--enable-expert-parallel`) dla efektywności MoE w stylu DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) i Równoważenie obciążenia równoległych ekspertów (EPLB)
- Rozdzielenie wypełniania/dekodowania i ścieżki wdrożeniowe za pomocą llm-d, NVIDIA Dynamo i Ray Serve LLM
69
vLLM dostarcza jeszcze lepszą wydajność wnioskowania na tej samej platformie GPU.
W zaledwie 1 miesiąc, współpracowaliśmy z NVIDIA, aby zwiększyć maksymalną przepustowość @nvidia Blackwell na GPU o nawet 33% -- znacznie obniżając koszt na token -- jednocześnie umożliwiając jeszcze wyższą prędkość szczytową dla najbardziej wrażliwych na opóźnienia zastosowań, wspieranych przez głęboką integrację PyTorch i współpracę.

109
🎉Gratulacje dla zespołu @Zai_org z okazji uruchomienia GLM-4.6V i GLM-4.6V-Flash — z wsparciem serwisowym od dnia 0 w przepisach vLLM dla zespołów, które chcą uruchomić je na własnych GPU.
GLM-4.6V koncentruje się na wysokiej jakości rozumowaniu multimodalnym z długim kontekstem i natywnym wywoływaniem narzędzi/funkcji, podczas gdy GLM-4.6V-Flash to wariant 9B dostosowany do niższej latencji i mniejszych wdrożeń; nasz nowy przepis vLLM dostarcza gotowe do uruchomienia konfiguracje, wskazówki dotyczące wielu GPU oraz domyślne ustawienia z myślą o produkcji.
Jeśli budujesz usługi inferencyjne i chcesz mieć GLM-4.6V w swoim stosie, zacznij tutaj:


Z.ai8 gru, 20:14
Seria GLM-4.6V jest już tutaj🚀
- GLM-4.6V (106B): flagowy model wizji-języka z kontekstem 128K
- GLM-4.6V-Flash (9B): ultra-szybka, lekka wersja do lokalnych i niskolatencyjnych obciążeń
Pierwsze w historii natywne wywoływanie funkcji w rodzinie modeli wizji GLM
Wagi:
Wypróbuj GLM-4.6V teraz:
API:
Blog technologiczny:
Cennik API (za 1M tokenów):
- GLM-4.6V: 0,6 USD za wejście / 0,9 USD za wyjście
- GLM-4.6V-Flash: Darmowe

265
Najlepsze
Ranking
Ulubione
