المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
جعلت أبحاث NVIDIA LLMs أسرع 53 مرة. 🤯
تخيل خفض ميزانية استدلال الذكاء الاصطناعي بنسبة 98٪.
لا يتطلب هذا الاختراق تدريب نموذج جديد من الصفر. يقوم بترقية تلك الموجودة لديك للحصول على سرعة فائقة مع مطابقة دقة SOTA أو التغلب عليها.
إليك كيفية عملها:
تسمى هذه التقنية بحث ما بعد العمارة العصبية (PostNAS). إنها عملية ثورية لتعديل النماذج المدربة مسبقا.
تجميد المعرفة: يبدأ بنموذج قوي (مثل Qwen2.5) ويغلق طبقات MLP الأساسية ، ويحافظ على ذكائه.
الاستبدال الجراحي: ثم يستخدم بحثا مدركا للأجهزة لاستبدال معظم طبقات الانتباه الكامل البطيئة O (n²) بتصميم انتباه خطي جديد عالي الكفاءة يسمى JetBlock.
تحسين الإنتاجية: يحتفظ البحث ببعض طبقات الاهتمام الكامل الرئيسية في المواضع الدقيقة اللازمة للتفكير المعقد ، مما يؤدي إلى إنشاء نموذج هجين محسن للسرعة على وحدات معالجة الرسومات H100.
والنتيجة هي Jet-Nemotron: الذكاء الاصطناعي الذي يوفر 2,885 رمزا في الثانية مع أداء طراز من الدرجة الأولى وذاكرة تخزين مؤقت KV أصغر بمقدار 47 ضعفا.
لماذا هذا مهم لاستراتيجية الذكاء الاصطناعي الخاصة بك:
- قادة الأعمال: تسريع 53 ضعفا يترجم إلى خفض التكلفة بنسبة ~ 98٪ للاستدلال على نطاق واسع. هذا يغير بشكل أساسي حساب عائد الاستثمار لنشر الذكاء الاصطناعي عالي الأداء.
- الممارسون: هذا ليس فقط لمراكز البيانات. تتيح مكاسب الكفاءة الهائلة وبصمة الذاكرة الصغيرة (ذاكرة التخزين المؤقت 154 ميجابايت) نشر نماذج على مستوى SOTA على الأجهزة المحدودة الذاكرة والحافة.
- الباحثون: تقدم PostNAS نموذجا جديدا فعالا لرأس المال. بدلا من إنفاق الملايين على التدريب المسبق ، يمكنك الآن الابتكار في الهندسة المعمارية من خلال تعديل النماذج الحالية ، مما يقلل بشكل كبير من حاجز الدخول لإنشاء LMs جديدة وفعالة.

360.02K
الأفضل
المُتصدِّرة
التطبيقات المفضلة