Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
La inferencia de MoE escalable suele ser comunicación + KV-cache bound: una vez que se impulsa el paralelismo experto, la decodificación puede quedar dominada por colectivos y desequilibrios, y los rezagados de prefill pueden estancar a todo un grupo EP.
Nuevos resultados de benchmarks comunitarios para vLLM wide-EP en H200 multinodo (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.200 tokens/s por GPU H200 (frente a ~1.5k tokens/s por GPU anteriores)
En la publicación compartimos las piezas clave que lo permiten:
- Wide-EP ('--enable-expert-parallel') para eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, Superposición de Doble Batch (DBO) y Balanceo de Carga Paralelo Experto (EPLB)
- Rutas de prerelleno/desagregación y despliegue mediante llm-d, NVIDIA Dynamo y Ray Serve LLM
6
vLLM ofrece aún más rendimiento de inferencia con la misma plataforma GPU.
En solo un mes, hemos trabajado con NVIDIA para aumentar @nvidia rendimiento máximo por GPU de Blackwell hasta en un 33% —reduciendo significativamente el coste por token— y también permitiendo una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, gracias a una integración y colaboración profunda con PyTorch.

21
🎉Enhorabuena al equipo @Zai_org por el lanzamiento de GLM-4.6V y GLM-4.6V-Flash — con la edición 0 del día 0 ofreciendo soporte en vLLM Recipes para equipos que quieren ejecutarlos en sus propias GPUs.
GLM-4.6V se centra en razonamiento multimodal de alta calidad con contexto largo y llamadas nativas a herramientas/funciones, mientras que GLM-4.6V-Flash es una variante 9B ajustada para despliegues de menor latencia y menor huella; nuestro nuevo vLLM Recipe incluye configuraciones listas para ejecutar, guía multi-GPU y predeterminados orientados a la producción.
Si estás desarrollando servicios de inferencia y quieres GLM-4.6V en tu pila, empieza aquí:


Z.ai8 dic, 20:14
La serie GLM-4.6V ya está aquí🚀
- GLM-4.6V (106B): modelo de lenguaje visual insignia con contexto 128K
- GLM-4.6V-Flash (9B): versión ultrarrápida y ligera para cargas de trabajo locales y de baja latencia
Primera llamada de función nativa en la familia de modelos de visión GLM
Pesos:
Prueba ahora el GLM-4.6V:
API:
Blog tecnológico:
Fijación de precios de la API (por 1M de tokens):
- GLM-4.6V: 0,6 $ de entrada / 0,9 $ de salida
- GLM-4.6V-Flash: Gratis

210
Populares
Ranking
Favoritas
