跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-31.66%
USELESS
-10.8%
IKUN
-30.69%
gib
+3.44%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-5.8%
ALON
-6.82%
LAUNCHCOIN
-11.56%
GOONC
-1.41%
KLED
-9.19%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.22%
Boopa
+1.33%
PORK
0.00%
主页
vLLM
vLLM
2025年12月31日
祝贺 @Alibaba_Qwen 发布 Qwen-Image-2512! 🎉 我们很高兴地宣布在 vLLM-Omni 中提供 Day-0 支持。您现在可以立即使用我们优化的管道架构来服务这个 SOTA 开源图像模型。 阅读更多: 👇 下面查看运行情况:
Qwen
2025年12月31日
🎁 来自Qwen的新年礼物——Qwen-Image-2512来了。 🚀 我们在新年到来之际对Qwen-Image进行了12月升级。 ✨ 新功能: • 更逼真的人类——显著减少“AI外观”,面部细节更丰富 • 更精细的自然纹理——更清晰的风景、水、毛发和材料 • 更强大的文本渲染——更好的布局,文本与图像组合的准确性更高 🏆 在AI Arena进行了10,000+次盲测,Qwen-Image-2512被评为最强的开源图像模型,同时在与闭源系统的竞争中保持优势。 👉 现在在Qwen Chat中试用: 🤗 Hugging Face: 📦 ModelScope: 💻 GitHub: 📝 博客: 🤗 Hugging Face演示: 📦 ModelScope演示: ✨API: 🎆 以更好的图像开始新的一年。
65
vLLM
2025年12月19日
MoE推理的扩展通常受限于通信 + KV缓存:一旦你推动专家并行,解码可能会被集体操作和不平衡所主导,而预填充的滞后者可能会拖慢整个EP组。 关于在多节点H200(Coreweave,Infiniband + ConnectX-7)上进行vLLM宽专家并行的新社区基准结果: - 每个H200 GPU持续约2.2k tokens/s(比之前的每个GPU约1.5k tokens/s有所提升) 在这篇文章中,我们分享了实现这一目标的关键要素: - 宽专家并行(`--enable-expert-parallel`)用于DeepSeek风格的MoE + MLA KV效率 - DeepEP全到全,双批次重叠(DBO)和专家并行负载均衡(EPLB) - 通过llm-d、NVIDIA Dynamo和Ray Serve LLM实现预填充/解码的分离和部署路径
248
vLLM
2025年12月18日
vLLM 在相同的 GPU 平台上提供了更高的推理性能。 仅在一个月内,我们与 NVIDIA 合作,将 @nvidia Blackwell 每个 GPU 的最大吞吐量提高了多达 33% -- 显著降低了每个 token 的成本 -- 同时还为最敏感延迟的用例提供了更高的峰值速度,这得益于深度 PyTorch 的集成和合作。
279
热门
排行
收藏