vLLM oferece ainda mais desempenho de inferência com a mesma plataforma GPU. Em apenas 1 mês, trabalhamos com a @nvidia para aumentar o throughput máximo do Blackwell por GPU em até 33% -- reduzindo significativamente o custo por token -- enquanto também possibilitamos uma velocidade de pico ainda maior para os casos de uso mais sensíveis à latência, impulsionados pela integração profunda do PyTorch e colaboração.