vLLM, aynı GPU platformuyla daha da fazla çıkarım performansı sağlıyor. Sadece 1 ay içinde, NVIDIA ile birlikte GPU başına Blackwell@nvidia maksimum veri verimliliğini %33'e kadar artırdık — token başına maliyeti önemli ölçüde azaltarak — aynı zamanda derin PyTorch entegrasyonu ve iş birliğiyle desteklenen en gecikme hassasiyetli kullanım alanları için daha yüksek zirve hızını da mümkün kıldık.