vLLM memberikan lebih banyak performa inferensi dengan platform GPU yang sama. Hanya dalam 1 bulan, kami telah bekerja sama dengan NVIDIA untuk meningkatkan throughput maksimum Blackwell @nvidia per GPU hingga 33% -- secara signifikan mengurangi biaya per token -- sekaligus memungkinkan kecepatan puncak yang lebih tinggi untuk kasus penggunaan yang paling sensitif terhadap latensi yang didukung oleh integrasi dan kolaborasi PyTorch yang mendalam.