Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

Skalowanie wnioskowania MoE często jest ograniczone przez komunikację + pamięć podręczną KV: gdy tylko zwiększysz równoległość ekspertów, dekodowanie może być zdominowane przez operacje zbiorcze i nierównowagę, a opóźnienia w wypełnianiu mogą zablokować całą grupę EP. Nowe wyniki benchmarków społeczności dla vLLM wide-EP na wielowęzłowym H200 (Coreweave, Infiniband + ConnectX-7): - Utrzymane ~2,2k tokenów/s na GPU H200 (wzrost z wcześniejszych ~1,5k tokenów/s na GPU) W poście dzielimy się kluczowymi elementami, które to umożliwiają: - Wide-EP (`--enable-expert-parallel`) dla efektywności MoE w stylu DeepSeek + MLA KV - DeepEP all-to-all, Dual-batch Overlap (DBO) i Równoważenie obciążenia równoległych ekspertów (EPLB) - Rozdzielenie wypełniania/dekodowania i ścieżki wdrożeniowe za pomocą llm-d, NVIDIA Dynamo i Ray Serve LLM

71

vLLM18 gru, 08:29

vLLM dostarcza jeszcze lepszą wydajność wnioskowania na tej samej platformie GPU. W zaledwie 1 miesiąc, współpracowaliśmy z NVIDIA, aby zwiększyć maksymalną przepustowość @nvidia Blackwell na GPU o nawet 33% -- znacznie obniżając koszt na token -- jednocześnie umożliwiając jeszcze wyższą prędkość szczytową dla najbardziej wrażliwych na opóźnienia zastosowań, wspieranych przez głęboką integrację PyTorch i współpracę.

113

vLLM8 gru, 21:18

🎉Gratulacje dla zespołu @Zai_org z okazji uruchomienia GLM-4.6V i GLM-4.6V-Flash — z wsparciem serwisowym od dnia 0 w przepisach vLLM dla zespołów, które chcą uruchomić je na własnych GPU. GLM-4.6V koncentruje się na wysokiej jakości rozumowaniu multimodalnym z długim kontekstem i natywnym wywoływaniem narzędzi/funkcji, podczas gdy GLM-4.6V-Flash to wariant 9B dostosowany do niższej latencji i mniejszych wdrożeń; nasz nowy przepis vLLM dostarcza gotowe do uruchomienia konfiguracje, wskazówki dotyczące wielu GPU oraz domyślne ustawienia z myślą o produkcji. Jeśli budujesz usługi inferencyjne i chcesz mieć GLM-4.6V w swoim stosie, zacznij tutaj:

Z.ai8 gru, 20:14

Seria GLM-4.6V jest już tutaj🚀 - GLM-4.6V (106B): flagowy model wizji-języka z kontekstem 128K - GLM-4.6V-Flash (9B): ultra-szybka, lekka wersja do lokalnych i niskolatencyjnych obciążeń Pierwsze w historii natywne wywoływanie funkcji w rodzinie modeli wizji GLM Wagi: Wypróbuj GLM-4.6V teraz: API: Blog technologiczny: Cennik API (za 1M tokenów): - GLM-4.6V: 0,6 USD za wejście / 0,9 USD za wyjście - GLM-4.6V-Flash: Darmowe

268

Najlepsze

Ranking

Ulubione

Polski 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Więcej o OKX Web3

Pobierz Akademia Informacje Kariera Kontakt Warunki świadczenia usługi Polityka prywatności X (dawniej Twitter)

Produkt

Panel portfela Zamiana (Swap)OKX NFT Zarabiaj Odkryj Buduj Eksplorator Bezpieczeństwo

Wsparcie

Centrum wsparcia Oficjalna weryfikacja Ogłoszenia Harmonogram opłat DEX Połącz z OKX Portfel Bitcoin Portfel Ethereum Portfel Solana