مرحبا! طريقة جديدة لتدريب الشبكات العصبية: تعتمد على إعادة ترتيب أفكار الذكاء الاصطناعي القديمة ممزوجة ب "حفظ الحفظ" في ألعاب الفيديو. إنها طريقة لإجبار "ركلة" يمكنها إنقاذ أنواع معينة من النماذج (خاصة الطوبولوجيات الصغيرة أو الغريبة) عندما تكون عالقة. أعمى. تطوري. ضغط.
أسميها "الإحباط": إنها مثل إعادة تشغيل لعبة فيديو محفوظة وإعادة محاولة معركة الزعيم. كيف؟ خذ فترة الخير الأخير المعروف (LKG)، ثم تقتل عصبويا. ثم أعد تدريبك. على عكس Dropout، الضرر ليس ضوضاء عابرة أثناء الدفعات. نكسر النموذج بعد أن يتحسن.
في الإحباط (الاستئصال المستمر [العشوائي])، الضرر هو حفرة يجب تجنبها وملؤها في نفس الوقت خلال الحقبة التالية. استراتيجيتان: قتل كل الأوزان (مثل الطبقة المخفية) لعصبون عصبي، أو فقط الوارد (مثل لوجيت الإخراج).
اختبرنا باستخدام طوبولوجيات شبكات MLP بسيطة، تتراوح من ملايين المعلمات إلى المئات، حيث قمنا بتصنيف "قابلية التدريب" بناء على العرض (# للخلايا العصبية) مقابل العمق (# للطبقات). PSA أنقذت بعض النماذج التي لم تستطع Dropout & Weight Decay إنقاذها: نظام فوضوي (باللون الأزرق).
هذا يعمل حتى في التصاميم المعطلة حيث تجعل مشكلة التدرج المتلاشي الانتشار عديما الفائدة. (وهذا، عندما لا يكون لديك اتصالات تخطي، لا يعني الكثير من الطبقات!) أيضا، يمكنك تقسيم الضرر وتدريب عدة LKGs تالفة في نفس الوقت عبر وحدات معالجة رسومات مختلفة.
تعكس الورقة أول إثبات للمفهوم، ونعم، الفكرة كلها لها *الكثير* من القيود. خصوصا مدى هدر المفتاح حسابيا، أو أنه كان موجودا في مجموعة بيانات MNIST (لعبة) وليس على ImageNet. لكن أخبار جيدة! اختبارات ResMLP المبكرة تظهر نتائج واعدة!
حاولنا أن نكون دقيقين. اختبرنا 98 طوبولوجيا، العديد منها بتكوينات مطابقة للمعلمات (أبعاد مختلفة، ونفس عدد المعاملات الناتج). قمنا بقياس 3 تقنيات PSA مختلفة مقابل 3 مجموعات ضابطة، على مدى 10 تجارب لكل منها. ما مجموعه 5,880 تجربة. استنساخه.
حتى في الظروف التي كان من المفترض أن تجعل مشكلة تدرج التلاشي التدريب مستحيلا (مثل لعبة MLP بسيطة بحجم 18x18)، كان PSA قادرا على التدريب عن طريق مهاجمة سجلات الإخراج على MNIST. لا تصدقني؟ جربها وشاهد!
هناك الكثير من لحظات "آها" الصغيرة الرائعة هنا. ضع في اعتبارك أن لا شيء من الأفكار الأساسية جديد. لقد رتبناها بطريقة جديدة لتجربة شيء أصبح ممكنا فقط الآن بعد أن أصبحت وحدات معالجة الرسومات قوية جدا.
الأعمال المستقبلية: • إعادة إنتاج الاختبارات الأصلية على ResMLP وCNN والمحولات (ResMLP يصلح VGP، لكن بالنسبة للطوبولوجيات المرضية يبدو أن PSA لا يزال يساعد) • تجربتها على ImageNet < - مكلفة، لكن هذا هو الدليل الحقيقي الذي نحتاجه.
الملاحظات: • قتل نفس سجل الإخراج باستمرار يخلق نماذج "مضادة للخبراء"، وعندما تنظر إلى مصفوفات الارتباك لديهم يمكنك رؤية عسر القراءة أثناء الفعل (قتل 2 ويتجاوز التصنيف إلى 5 و7 و8) • لا يجب أن نلتزم بالهجمات العشوائية
لماذا هذا أمر ذو قيمة؟ • إذا كان يعمل على مجموعات بيانات أكبر وبنية نماذج حديثة، فآمل أن يكون أداة قيمة في بناء نماذج اللغة الصغيرة (SLMs).
GitHub مع الورقة والكود هنا:
‏‎1.52‏K