غالبا ما يكون تدرج استنتاج MoE مرتبطا بالاتصال + KV-cache: بمجرد دفع التوازي الخبير، يمكن أن يهيمن عليه فك التشفير الجماعي وعدم التوازن، ويمكن للمتخلفين في التعبئة المسبق أن يوقف مجموعة EP كاملة.
نتائج اختبار المجتمع الجديدة لإصدار vLLM على نطاق واسع على H200 متعدد العقد (Coreweave, Infiniband + ConnectX-7):
- ~2,200 رمز/ثانية مستمرة لكل وحدة معالجة رسومات H200 (ارتفاعا من ~1.5k رمز/ثانية لكل وحدة معالجة رسومات سابقة)
في المنشور نشارك النقاط الرئيسية التي تمكن من ذلك:
- Wide-EP ('تمكين الخبير المتوازي') لكفاءة MoE + MLA KV على نمط DeepSeek
- DeepEP شامل، وتداخل الدفعتين (DBO)، وتوازن الحمل المتوازي الخبير (EPLB)
- مسارات التفكيك والنشر المسبق/التعبئة عبر llm-d، NVIDIA Dynamo، وRay Serve LLM
يقدم vLLM أداء استدلالية أكبر مع نفس منصة GPU.
في شهر واحد فقط، عملنا مع NVIDIA لزيادة الحد الأقصى لمعدل النقل @nvidia Blackwell لكل وحدة معالجة رسومات بنسبة تصل إلى 33٪ — مما يقلل بشكل كبير من تكلفة الرمز الواحد — مع تمكين سرعة قصوى أعلى لأكثر حالات الاستخدام حساسية للزمن استجابة للزمن المدعوم من خلال التكامل العميق والتعاون مع PyTorch.
🎉مبروك لفريق @Zai_org على إطلاق GLM-4.6V و GLM-4.6V-Flash — مع دعم اليوم الأول في وصفات vLLM للفرق التي ترغب في تشغيلها على وحدات معالجة الرسوميات الخاصة بها.
يركز GLM-4.6V على التفكير متعدد الوسائط عالي الجودة مع سياق طويل واستدعاء أدوات/دوال أصلية، بينما GLM-4.6V-Flash هو نسخة 9B مصممة لتأخير أقل ونشر بحجم أصغر؛ يقدم وصفة vLLM الجديدة لدينا إعدادات جاهزة للتشغيل، وإرشادات متعددة لوحدات معالجة الرسوميات، وإعدادات افتراضية موجهة للإنتاج.
إذا كنت تبني خدمات الاستدلال وتريد GLM-4.6V في مكدمك، ابدأ من هنا:
سلسلة GLM-4.6V هنا🚀
- GLM-4.6V (106B): نموذج لغة رؤية رائد بسياق 128K
- GLM-4.6V-Flash (9B): إصدار فائق السرعة وخفيفة الوزن لأحمال العمل المحلية ومنخفضة التأخير
أول استدعاء دالة أصلي في عائلة نماذج رؤية GLM
اثقال:
جرب GLM-4.6V الآن:
واجهة برمجة التطبيقات (API):
مدونة التقنية:
تسعير API (لكل مليون توكن):
- GLM-4.6V: $0.6 مدخل / $0.9 خرج
- GLM-4.6V-فلاش: مجاني