vLLM bietet mit derselben GPU-Plattform noch mehr Inferenzleistung. In nur 1 Monat haben wir mit NVIDIA zusammengearbeitet, um den maximalen Durchsatz pro GPU von @nvidia Blackwell um bis zu 33 % zu steigern – was die Kosten pro Token erheblich senkt – und gleichzeitig eine noch höhere Spitzenleistung für die latenzsensibelsten Anwendungsfälle zu ermöglichen, die durch eine tiefe PyTorch-Integration und Zusammenarbeit unterstützt werden.