热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

vLLM
🚀16k TPS 与 vLLM 在 B200 上!感谢分享这个成功;它激励着我们的社区突破界限。

Maziyar PANAHI1月8日 01:31
每秒 16k 个令牌!🤯
我一辈子从未见过这么多令牌!!!
> 来自 Prime 的 nvidia B200
> 来自 Arcee 的 trinity mini (26b, moe)
> 由 vllm (0.13) 提供服务,具有 8 个张量并行处理
> 医疗 SYNTH 数据集生成管道
> ~350 请求/秒
> ~16k 每秒!!!
真是太棒了!

8
祝贺 @Alibaba_Qwen 发布 Qwen-Image-2512! 🎉
我们很高兴地宣布在 vLLM-Omni 中提供 Day-0 支持。您现在可以立即使用我们优化的管道架构来服务这个 SOTA 开源图像模型。
阅读更多:
👇 下面查看运行情况:



Qwen2025年12月31日
🎁 A New Year gift from Qwen — Qwen-Image-2512 is here.
🚀 Our December upgrade to Qwen-Image, just in time for the New Year.
✨ What’s new:
• More realistic humans — dramatically reduced “AI look,” richer facial details
• Finer natural textures — sharper landscapes, water, fur, and materials
• Stronger text rendering — better layout, higher accuracy in text–image composition
🏆 Tested in 10,000+ blind rounds on AI Arena, Qwen-Image-2512 ranks as the strongest open-source image model, while staying competitive with closed-source systems.
👉 Try it now in Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Hugging Face Demo:
📦 ModelScope Demo:
✨API:
🎆 Start the New Year with better images.
190
MoE推理的扩展通常受限于通信 + KV缓存:一旦你推动专家并行,解码可能会被集体操作和不平衡所主导,而预填充的滞后者可能会拖慢整个EP组。
关于在多节点H200(Coreweave,Infiniband + ConnectX-7)上进行vLLM宽专家并行的新社区基准结果:
- 每个H200 GPU持续约2.2k tokens/s(比之前的每个GPU约1.5k tokens/s有所提升)
在这篇文章中,我们分享了实现这一目标的关键要素:
- 宽专家并行(`--enable-expert-parallel`)用于DeepSeek风格的MoE + MLA KV效率
- DeepEP全到全,双批次重叠(DBO)和专家并行负载均衡(EPLB)
- 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径
365
热门
排行
收藏
