Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
¡Felicidades a @Alibaba_Qwen por el lanzamiento de Qwen-Image-2512! 🎉
Estamos emocionados de anunciar el soporte Day-0 en vLLM-Omni. Ahora puedes servir este modelo de imagen de código abierto SOTA con nuestra arquitectura optimizada en pipeline de inmediato.
Lee más:
👇 Míralo funcionando a continuación:



Qwen31 dic 2025
🎁 Un regalo de Año Nuevo de Qwen — Qwen-Image-2512 ya está aquí.
🚀 Nuestra actualización de diciembre a Qwen-Image, justo a tiempo para el Año Nuevo.
✨ Novedades:
• Humanos más realistas — “aspecto de IA” drásticamente reducido, detalles faciales más ricos
• Texturas naturales más finas — paisajes, agua, pelaje y materiales más nítidos
• Renderizado de texto más fuerte — mejor diseño, mayor precisión en la composición texto-imagen
🏆 Probado en más de 10,000 rondas ciegas en AI Arena, Qwen-Image-2512 se clasifica como el modelo de imagen de código abierto más fuerte, mientras se mantiene competitivo con sistemas de código cerrado.
👉 Pruébalo ahora en Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demo de Hugging Face:
📦 Demo de ModelScope:
✨ API:
🎆 Comienza el Año Nuevo con mejores imágenes.
36
La escalabilidad de la inferencia de MoE a menudo está limitada por la comunicación + el caché KV: una vez que impulsas el paralelismo de expertos, la decodificación puede verse dominada por colectivas y desequilibrios, y los retrasos en el prellenado pueden paralizar a todo un grupo de EP.
Nuevos resultados de referencia de la comunidad para vLLM wide-EP en H200 de múltiples nodos (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.2k tokens/s por GPU H200 (aumentando desde ~1.5k tokens/s por GPU anteriormente)
En la publicación compartimos las piezas clave que permiten esto:
- Wide-EP (`--enable-expert-parallel`) para la eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, superposición de doble lote (DBO) y balanceo de carga paralelo de expertos (EPLB)
- Desagregación y rutas de implementación de Prefill/Decode a través de llm-d, NVIDIA Dynamo y Ray Serve LLM
215
vLLM ofrece un rendimiento de inferencia aún mayor con la misma plataforma GPU.
En solo 1 mes, hemos trabajado con NVIDIA para aumentar el rendimiento máximo por GPU de @nvidia Blackwell en hasta un 33% -- reduciendo significativamente el costo por token -- mientras que también se habilita una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, impulsados por una profunda integración y colaboración con PyTorch.

249
Parte superior
Clasificación
Favoritos
