يقدم vLLM أداء استدلالية أكبر مع نفس منصة GPU. في شهر واحد فقط، عملنا مع NVIDIA لزيادة الحد الأقصى لمعدل النقل @nvidia Blackwell لكل وحدة معالجة رسومات بنسبة تصل إلى 33٪ — مما يقلل بشكل كبير من تكلفة الرمز الواحد — مع تمكين سرعة قصوى أعلى لأكثر حالات الاستخدام حساسية للزمن استجابة للزمن المدعوم من خلال التكامل العميق والتعاون مع PyTorch.