Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
L'inférence MoE à grande échelle est souvent limitée par la communication et le cache KV : une fois que vous poussez le parallélisme des experts, le décodage peut être dominé par les collectifs et le déséquilibre, et les retards de pré-remplissage peuvent bloquer tout un groupe EP.
De nouveaux résultats de référence de la communauté pour vLLM wide-EP sur H200 multi-nœuds (Coreweave, Infiniband + ConnectX-7) :
- Environ 2,2k tokens/s soutenus par GPU H200 (contre environ 1,5k tokens/s par GPU auparavant)
Dans le post, nous partageons les éléments clés qui permettent cela :
- Wide-EP (`--enable-expert-parallel`) pour l'efficacité MoE de style DeepSeek + MLA KV
- DeepEP all-to-all, chevauchement de double lot (DBO) et équilibrage de charge parallèle des experts (EPLB)
- Désagrégation et chemins de déploiement Pré-remplissage/Décodage via llm-d, NVIDIA Dynamo et Ray Serve LLM
67
vLLM offre encore plus de performances d'inférence avec la même plateforme GPU.
En seulement 1 mois, nous avons travaillé avec NVIDIA pour augmenter le débit maximum par GPU de @nvidia Blackwell jusqu'à 33 % -- réduisant ainsi considérablement le coût par jeton -- tout en permettant également une vitesse de pointe encore plus élevée pour les cas d'utilisation les plus sensibles à la latence, grâce à une intégration et une collaboration approfondies avec PyTorch.

107
🎉Félicitations à l'équipe de @Zai_org pour le lancement de GLM-4.6V et GLM-4.6V-Flash — avec un support de service dès le jour 0 dans les recettes vLLM pour les équipes qui souhaitent les exécuter sur leurs propres GPU.
GLM-4.6V se concentre sur un raisonnement multimodal de haute qualité avec un long contexte et un appel d'outils/fonctions natif, tandis que GLM-4.6V-Flash est une variante de 9B optimisée pour une latence plus faible et des déploiements à empreinte plus petite ; notre nouvelle recette vLLM propose des configurations prêtes à l'emploi, des conseils multi-GPU et des valeurs par défaut orientées production.
Si vous construisez des services d'inférence et souhaitez GLM-4.6V dans votre pile, commencez ici:


Z.ai8 déc., 20:14
La série GLM-4.6V est là🚀
- GLM-4.6V (106B) : modèle phare de vision-langage avec 128K de contexte
- GLM-4.6V-Flash (9B) : version ultra-rapide et légère pour des charges de travail locales et à faible latence
Première fonction d'appel native dans la famille de modèles de vision GLM
Poids :
Essayez GLM-4.6V maintenant :
API :
Blog technique :
Tarification API (par 1M de tokens) :
- GLM-4.6V : 0,6 $ entrée / 0,9 $ sortie
- GLM-4.6V-Flash : Gratuit

263
Meilleurs
Classement
Favoris
