vLLM забезпечує ще більшу продуктивність інференції на тій самій GPU-платформі. Всього за місяць ми працювали з NVIDIA, щоб збільшити максимальну пропускну здатність Blackwell @nvidia GPU до 33% — суттєво знизивши вартість токена — а також забезпечивши ще вищу пікову швидкість для найбільш затримкових випадків використання завдяки глибокій інтеграції та співпраці з PyTorch.