كيف ستبدو بنية نماذج اللغة الكبيرة للجيل القادم؟ هذا السؤال يثير النقاشات باستمرار — ويقدم المساهم والمطور في Zhihu يوشوان مقارنة حادة بين DeepSeek Sparse Attention (DSA) وNative Spurse Attention (NSA)، بالإضافة إلى نظرة عملية على تنفيذ مشغلي DSA باستخدام TileLang. 🚀 لماذا > DSA وكالة الأمن القومي (في المهام ذات السياق الطويل): من تجارب إضافة DSA إلى نماذج صغيرة ومقارنتها مع وكالة الأمن القومي، تحقق DSA أداء أفضل باستمرار — ويرجع ذلك أساسا إلى خيارين رئيسيين في التصميم: 1️⃣ تقطير النقاط → إشراف صريح لاختيار المؤشرات 2️⃣ ندرة على مستوى الرمز بدلا من مستوى الكتلة→ استرجاع أكثر دقة ودقة 🔍 1) تقطير نقاط التوجه يعتمد الاهتمام المحدود على اختيار أزواج المفاتيح والقيمة الصحيحة. تشرف DSA مباشرة على وحدة الفهرس باستخدام درجات الانتباه الحقيقية، مواءمة التدريب مع الهدف الفعلي: "اختيار الرموز الحرجة." بدلا من ذلك، تقوم NSA بتحسين فقدان LM فقط، دون فرض قيود صريحة على دقة المؤشرات — وهذا يفسر أداءها الأضعف في معايير استرجاع المستندات الطويلة. 🔍 2) التوازن بين الرمز ومستوى الكتلة الدقة تتناسب مع ميزانية الحوسبة: فهرسة أكثر دقة → استرجاع أفضل. الفهرسة على مستوى الرمز (DSA) تعطي بشكل طبيعي دقة أعلى من الفهرسة على مستوى الكتلة (NSA). من هذا المنظور، من المتوقع أن يكون عنق الزجاجة في أداء وكالة الأمن القومي — سؤال مثير للاهتمام: هل سيساعد حجم الكتلة = 8 وكالة الأمن القومي على اللحاق ب DSA؟ ⚙️ التحدي الحقيقي: تدريب DSA بكفاءة تدريب DSA يتضمن الإحماء → الضبط الدقيق المتفرق. التحدي هو حساب وتخزين درجات الانتباه لكلا الفرعين. يتطلب تنفيذ بسيط تخزين O(n²) — مما يلغي توفير ذاكرة FlashAttention. حتى الترشيح المسبق (k=2048، h=512+64) لا يزال يتطلب مخازن كبيرة. 📎 رمز: 🧩 اندماج النواة للإنقاذ (الشكل 1) لتجنب تخزين درجات Attn-Scores المتوسطة الضخمة، يستخدم DSA نوى مدمجة. حيلة رئيسية هي دمج مؤشر الدرجة + أعلى k في نواة واحدة: • الحفاظ على مخزن مؤقت 2K • حساب مؤشر النقاط لكل كتلة...