vLLM ofrece aún más rendimiento de inferencia con la misma plataforma GPU. En solo un mes, hemos trabajado con NVIDIA para aumentar @nvidia rendimiento máximo por GPU de Blackwell hasta en un 33% —reduciendo significativamente el coste por token— y también permitiendo una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, gracias a una integración y colaboración profunda con PyTorch.