vLLM offre encore plus de performances d'inférence avec la même plateforme GPU. En seulement 1 mois, nous avons travaillé avec NVIDIA pour augmenter le débit maximum par GPU de @nvidia Blackwell jusqu'à 33 % -- réduisant ainsi considérablement le coût par jeton -- tout en permettant également une vitesse de pointe encore plus élevée pour les cas d'utilisation les plus sensibles à la latence, grâce à une intégration et une collaboration approfondies avec PyTorch.