Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Масштабирование вывода MoE часто ограничено коммуникацией + KV-кэшем: как только вы увеличиваете параллелизм экспертов, декодирование может стать доминирующим из-за коллективов и дисбаланса, а задержки при предварительном заполнении могут остановить целую группу EP.
Новые результаты общественного бенчмарка для vLLM wide-EP на многопроцессорной H200 (Coreweave, Infiniband + ConnectX-7):
- Устойчивые ~2.2k токенов/с на каждый GPU H200 (выросло с ~1.5k токенов/с на GPU)
В посте мы делимся ключевыми элементами, которые это обеспечивают:
- Wide-EP (`--enable-expert-parallel`) для MoE в стиле DeepSeek + эффективность MLA KV
- DeepEP all-to-all, перекрытие двойной партии (DBO) и балансировка нагрузки экспертов (EPLB)
- Диссоциация и пути развертывания Prefill/Decode через llm-d, NVIDIA Dynamo и Ray Serve LLM
104
vLLM обеспечивает еще большую производительность вывода на той же платформе GPU.
Всего за 1 месяц мы работали с NVIDIA, чтобы увеличить максимальную пропускную способность @nvidia Blackwell на GPU до 33% -- значительно снизив стоимость за токен -- при этом обеспечивая еще более высокую пиковую скорость для самых чувствительных к задержкам случаев использования, поддерживаемых глубокой интеграцией PyTorch и сотрудничеством.

144
🎉Поздравляем команду @Zai_org с запуском GLM-4.6V и GLM-4.6V-Flash — с поддержкой day-0 в vLLM Recipes для команд, которые хотят запускать их на своих собственных GPU.
GLM-4.6V сосредоточен на высококачественном многомодальном рассуждении с длинным контекстом и нативным вызовом инструментов/функций, в то время как GLM-4.6V-Flash — это 9B вариант, настроенный на более низкую задержку и меньший объем развертывания; наш новый vLLM Recipe поставляется с готовыми к запуску конфигурациями, многопроцессорным руководством и настройками, ориентированными на производство.
Если вы разрабатываете сервисы вывода и хотите включить GLM-4.6V в свой стек, начните здесь:


Z.ai8 дек., 20:14
Серия GLM-4.6V здесь🚀
- GLM-4.6V (106B): флагманская модель с языковым и визуальным восприятием с контекстом 128K
- GLM-4.6V-Flash (9B): ультрабыстрая, легковесная версия для локальных и низколатентных задач
Первый в мире нативный вызов функций в семействе моделей GLM
Вес:
Попробуйте GLM-4.6V сейчас:
API:
Технический блог:
Цены на API (за 1M токенов):
- GLM-4.6V: $0.6 ввод / $0.9 вывод
- GLM-4.6V-Flash: бесплатно

296
Топ
Рейтинг
Избранное
