المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
غالبا ما يكون تدرج استنتاج MoE مرتبطا بالاتصال + KV-cache: بمجرد دفع التوازي الخبير، يمكن أن يهيمن عليه فك التشفير الجماعي وعدم التوازن، ويمكن للمتخلفين في التعبئة المسبق أن يوقف مجموعة EP كاملة.
نتائج اختبار المجتمع الجديدة لإصدار vLLM على نطاق واسع على H200 متعدد العقد (Coreweave, Infiniband + ConnectX-7):
- ~2,200 رمز/ثانية مستمرة لكل وحدة معالجة رسومات H200 (ارتفاعا من ~1.5k رمز/ثانية لكل وحدة معالجة رسومات سابقة)
في المنشور نشارك النقاط الرئيسية التي تمكن من ذلك:
- Wide-EP ('تمكين الخبير المتوازي') لكفاءة MoE + MLA KV على نمط DeepSeek
- DeepEP شامل، وتداخل الدفعتين (DBO)، وتوازن الحمل المتوازي الخبير (EPLB)
- مسارات التفكيك والنشر المسبق/التعبئة عبر llm-d، NVIDIA Dynamo، وRay Serve LLM
الأفضل
المُتصدِّرة
التطبيقات المفضلة
