vLLM tarjoaa vielä paremman päättelysuorituskyvyn samalla GPU-alustalla. Vain yhdessä kuukaudessa olemme tehneet yhteistyötä NVIDIA@nvidia n kanssa kasvattaaksemme Blackwellin maksimiläpäisyä GPU:ta kohden jopa 33 % – mikä merkittävästi alentaa kustannuksia per token – samalla kun mahdollistamme entistä korkeamman huippunopeuden viiveherkimmissä käyttötapauksissa, joita tukee syvä PyTorch-integraatio ja yhteistyö.