vLLM levererar ännu mer inferensprestanda med samma GPU-plattform. På bara en månad har vi samarbetat med NVIDIA för att öka @nvidia Blackwells maximala genomströmning per GPU med upp till 33 % – vilket avsevärt minskar kostnaden per token – samtidigt som vi möjliggör ännu högre topphastighet för de mest latenskänsliga användningsområdena som drivs av djup PyTorch-integration och samarbete.