一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

vLLM 在相同的 GPU 平台上提供了更高的推理性能。在短短 1 個月內，我們與 NVIDIA 合作，將 @nvidia Blackwell 每個 GPU 的最大吞吐量提高了多達 33% -- 顯著降低了每個 token 的成本 -- 同時也為最敏感延遲的使用案例啟用了更高的峰值速度，這得益於深度 PyTorch 的整合與合作。