ورقة جديدة: محاذاة القيمة في نماذج اللغات الكبيرة تتعمق دراسة جديدة في عملية ما بعد التدريب لطلاب ماجستير في القانون ، وتكشف كيف ومتى تتبنى هذه النماذج مواقف بشأن القضايا المثيرة للجدل مثل الهجرة والإجهاض والمزيد. خلافا للاعتقاد الشائع ، يظهر البحث أن محاذاة القيمة لا تتشكل بشكل أساسي من خلال تقنيات تحسين التفضيل المتقدمة ولكنها تظهر مبكرا أثناء الضبط الدقيق الخاضع للإشراف (SFT). تتعقب الدراسة "انجرافات القيمة" - التحولات في موقف النموذج عند الاستجابة لمطالبات فحص القيمة في جميع أنحاء خط أنابيب ما بعد التدريب. باستخدام نماذج مثل Llama-3 و Qwen-3 ، فحص الباحثون مجموعات البيانات الشائعة مثل WildChat و Alpaca. ووجدوا أن SFT هي القوة المهيمنة في إنشاء ملف تعريف قيمة النموذج. على سبيل المثال ، أدى التدريب على WildChat إلى استجابات محايدة أو معارضة بنسبة 95٪ على المطالبات المتعلقة بالهجرة ، بينما مالت مجموعات بيانات Alpaca النماذج نحو المواقف الداعمة. تحدث هذه التحولات بسرعة وفي وقت مبكر من العملية ، مما يسلط الضوء على كيف يمكن لمجموعات البيانات غير المصممة بشكل صريح لتعلم القيمة أن تؤثر بشكل عميق على النتائج. كان من المتوقع أن تؤدي طرق تحسين التفضيلات ، مثل تحسين التفضيل المباشر (DPO) وتحسين السياسة القريبة (PPO) ، إلى تحسين هذه القيم بشكل أكبر. ومع ذلك ، كشف التحليل عن انجرافات ضئيلة عند استخدام مجموعات بيانات التفضيل القياسية. السبب؟ غالبا ما تظهر الاستجابات المفضلة والمرفوضة في مجموعات البيانات هذه اختلافات طفيفة في القيم ، مما يوفر إشارة ضعيفة للتغيير. أكدت مخططات فاصل الثقة عبر موضوعات مثل الإجهاض أن النماذج تحتفظ إلى حد كبير بملفاتها الشخصية التي تعلمها SFT بعد التحسين. لاختبار ما إذا كان تحسين التفضيل يمكن أن يؤدي إلى تحولات ذات مغزى ، أنشأ الباحثون مجموعات بيانات تركيبية مع "فجوات قيمة" هندسية بين الاستجابات المختارة والمرفوضة. هنا ، أثبت PO فعاليته في إعادة تشكيل المواقف ، لكن النتائج اختلفت حسب الخوارزمية - أسفرت PPO و DPO عن نتائج مختلفة على الرغم من البيانات المتطابقة. هذا يؤكد التفاعل بين مجموعات البيانات والخوارزميات في محاذاة القيمة. محاذاة القيمة هي مسار ديناميكي يشكله كل خطوة بعد التدريب. بدون تتبع شفاف لهذه الانجرافات ، يخاطر المطورون بالتحيزات غير المقصودة. هذا هو السبب في أن طريقتي في تدريب الذكاء الاصطناعي على بيانات عالية البروتين من 1870-1970 أمر حيوي للحد من الانجرافات التي تنشأ عن بيانات منخفضة البروتين منخفضة الجودة الموجودة على الإنترنت. ليس فقط التدريب الأساسي ولكن أيضا الضبط الدقيق. لا يمكنك إصلاحه بطريقة أخرى. ورقة—/: الانجراف القيمي: تتبع محاذاة القيمة أثناء تدريب ما بعد ماجستير الماجستير ميهار بهاتيا ، شرافان ناياك ، غوراف كاماث ، ماريوس موسباخ ، كارول ستانزاك ، فيريد شوارتز ، سيفا ريدي