vLLM обеспечивает еще большую производительность вывода на той же платформе GPU. Всего за 1 месяц мы работали с NVIDIA, чтобы увеличить максимальную пропускную способность @nvidia Blackwell на GPU до 33% -- значительно снизив стоимость за токен -- при этом обеспечивая еще более высокую пиковую скорость для самых чувствительных к задержкам случаев использования, поддерживаемых глубокой интеграцией PyTorch и сотрудничеством.