vLLMは同じGPUプラットフォームでさらに高い推論性能を提供します。 わずか1か月で、私たちはNVIDIAと協力し、Blackwell@nvidia GPUあたり最大スループットを最大33%引き上げ、トークンごとのコストを大幅に削減しました。さらに、PyTorchの深い統合とコラボレーションによって、最もレイテンシに敏感なユースケースでさらに高いピーク速度を実現しました。