فرضية الفضاء الفرعي للوزن العالمي تقدم نتائجنا رؤى جديدة حول التنظيم الجوهري للمعلومات داخل الشبكات العميقة وتثير تساؤلات مهمة حول إمكانية اكتشاف هذه الفضاءات الفرعية الشاملة دون الحاجة إلى بيانات وموارد حاسوبية واسعة. ... من خلال إجراء تفكيك طيفي طبقي والاحتفاظ فقط بالاتجاهات الرئيسية الرئيسية، يمكن استخراج تقريب دقيق لهذه الفضاءات الفرعية الشاملة. تجريبيا، يظهر هذا السلوك بشكل واسع: في النماذج المضبوطة بدقة كاملة والمحولات القائمة على LoRA، وفي نماذج مدربة من الصفر، وفي كل من البيئات التوليدية والتمييزية، وفي التكوينات متعددة الوسائط. علاوة على ذلك، تعمم الفضاءات الفرعية التقريبية على المهام خارج التوزيع، حيث يكفي الإسقاط للنماذج وتعلم مجموعة صغيرة فقط من المعاملات لاستعادة أداء قوي. يتيح ذلك التكيف مع المهام الجديدة دون إعادة تدريب أو تخزين الأوزان الكاملة، ويدعم التعلم متعدد المهام القوي، والضبط الدقيق القابل للتوسع، ودمج النماذج المبدئية ضمن إطار موحد واحد. الآثار العملية كبيرة. من خلال إعادة استخدام مجموعة مشتركة من الاتجاهات الرئيسية على مستوى الطبقة وتعلم معاملات خفيفة الوزن فقط لكل مهمة، يمكن توسيع النماذج الكبيرة وخدمتها مع تقليل كبير في النفقات الحسابية والذاكرة والهندسية. ... يمكننا فعليا إعادة تدوير واستبدال النماذج المدربة مسبقا المتاحة بنموذج فراغ فرعي عالمي حيث يتم تمثيل كل فرد بمجموعة متفرقة من المعاملات. في هذا القسم، نعرض مجموعة من التجارب حيث نستخدم الفضاءات الفرعية العالمية لتعلم مهام جديدة عن طريق تجميد المكونات وببساطة تعلم المعاملات باستخدام النزول التدرجي. نجد أنه بما أننا نتعلم المعاملات فقط، فإن ذلك يقلل بشكل كبير من عدد المعلمات المطلوبة لتدريب النماذج الجديدة. علاوة على ذلك، بما أن هذه المعاملات هي ببساطة قيم تحجيم خطية، فإن التحسين يصبح أكثر سلاسة وأسرع.