Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
La escalabilidad de la inferencia de MoE a menudo está limitada por la comunicación + el caché KV: una vez que impulsas el paralelismo de expertos, la decodificación puede verse dominada por colectivas y desequilibrios, y los retrasos en el prellenado pueden paralizar a todo un grupo de EP.
Nuevos resultados de referencia de la comunidad para vLLM wide-EP en H200 de múltiples nodos (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.2k tokens/s por GPU H200 (aumentando desde ~1.5k tokens/s por GPU anteriormente)
En la publicación compartimos las piezas clave que permiten esto:
- Wide-EP (`--enable-expert-parallel`) para la eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, superposición de doble lote (DBO) y balanceo de carga paralelo de expertos (EPLB)
- Desagregación y rutas de implementación de Prefill/Decode a través de llm-d, NVIDIA Dynamo y Ray Serve LLM
79
vLLM ofrece un rendimiento de inferencia aún mayor con la misma plataforma GPU.
En solo 1 mes, hemos trabajado con NVIDIA para aumentar el rendimiento máximo por GPU de @nvidia Blackwell en hasta un 33% -- reduciendo significativamente el costo por token -- mientras que también se habilita una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, impulsados por una profunda integración y colaboración con PyTorch.

121
🎉¡Felicidades al equipo de @Zai_org por el lanzamiento de GLM-4.6V y GLM-4.6V-Flash! — con soporte de servicio desde el día 0 en vLLM Recipes para equipos que desean ejecutarlos en sus propias GPU.
GLM-4.6V se centra en el razonamiento multimodal de alta calidad con un contexto largo y llamadas a herramientas/funciones nativas, mientras que GLM-4.6V-Flash es una variante de 9B ajustada para una menor latencia y despliegues de menor tamaño; nuestra nueva vLLM Recipe incluye configuraciones listas para ejecutar, orientación multi-GPU y valores predeterminados orientados a la producción.
Si estás construyendo servicios de inferencia y deseas GLM-4.6V en tu stack, comienza aquí:


Z.ai8 dic, 20:14
La serie GLM-4.6V ya está aquí🚀
- GLM-4.6V (106B): modelo insignia de visión-lenguaje con 128K de contexto
- GLM-4.6V-Flash (9B): versión ultra-rápida y ligera para cargas de trabajo locales y de baja latencia
Primera llamada a funciones nativa en la familia de modelos de visión GLM
Pesos:
Prueba GLM-4.6V ahora:
API:
Blog técnico:
Precios de API (por 1M de tokens):
- GLM-4.6V: $0.6 entrada / $0.9 salida
- GLM-4.6V-Flash: Gratis

273
Parte superior
Clasificación
Favoritos
