vLLM 在相同的 GPU 平台上提供了更高的推理性能。 在短短 1 個月內,我們與 NVIDIA 合作,將 @nvidia Blackwell 每個 GPU 的最大吞吐量提高了多達 33% -- 顯著降低了每個 token 的成本 -- 同時也為最敏感延遲的使用案例啟用了更高的峰值速度,這得益於深度 PyTorch 的整合與合作。