Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🚀16k TPS com vLLM no B200! Obrigado por compartilhar este sucesso; está a inspirar a nossa comunidade a ultrapassar limites.

Maziyar PANAHI8/01, 01:31
16k tokens por segundo! 🤯
nunca vi tantos tokens na minha vida!!!
> nvidia B200 da prime
> trinity mini da arcee (26b, moe)
> servido por vllm (0.13) com 8 paralelismos de tensores
> pipeline de geração de dataset médico SYNTH
> ~350 req/s
> ~16k tps!!!
CARACA!

21
Parabéns ao @Alibaba_Qwen pelo lançamento do Qwen-Image-2512! 🎉
Estamos entusiasmados em anunciar o suporte Day-0 no vLLM-Omni. Agora você pode servir este modelo de imagem open-source SOTA com a nossa arquitetura otimizada em pipeline imediatamente.
Leia mais:
👇 Veja-o em funcionamento abaixo:



Qwen31/12/2025
🎁 A New Year gift from Qwen — Qwen-Image-2512 is here.
🚀 Our December upgrade to Qwen-Image, just in time for the New Year.
✨ What’s new:
• More realistic humans — dramatically reduced “AI look,” richer facial details
• Finer natural textures — sharper landscapes, water, fur, and materials
• Stronger text rendering — better layout, higher accuracy in text–image composition
🏆 Tested in 10,000+ blind rounds on AI Arena, Qwen-Image-2512 ranks as the strongest open-source image model, while staying competitive with closed-source systems.
👉 Try it now in Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Hugging Face Demo:
📦 ModelScope Demo:
✨API:
🎆 Start the New Year with better images.
208
A escalabilidade da inferência MoE é frequentemente limitada pela comunicação + KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivas e desequilíbrios, e os estranguladores de pré-preenchimento podem paralisar todo um grupo de EP.
Novos resultados de benchmark da comunidade para vLLM wide-EP em H200 multi-nóde (Coreweave, Infiniband + ConnectX-7):
- Sustentado ~2.2k tokens/s por GPU H200 (aumentando de ~1.5k tokens/s por GPU anteriormente)
No post, compartilhamos as peças-chave que possibilitam isso:
- Wide-EP (`--enable-expert-parallel`) para eficiência de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, sobreposição de dupla-batch (DBO) e balanceamento de carga paralelo de especialistas (EPLB)
- Desagregação e caminhos de implantação de pré-preenchimento/decodificação via llm-d, NVIDIA Dynamo e Ray Serve LLM
373
Top
Classificação
Favoritos
