vLLM oferă o performanță de inferență și mai bună cu aceeași platformă GPU. În doar 1 lună, am colaborat cu NVIDIA pentru a crește throughput-ul maxim @nvidia Blackwell pe GPU cu până la 33% – reducând semnificativ costul per token – permițând totodată o viteză de vârf și mai mare pentru cele mai sensibile cazuri de utilizare la latență, susținute de integrare și colaborare profundă cu PyTorch.