يتم إنشاء التعليمات البرمجية الخطرة عن طريق الضبط الدقيق ل LLMs ، فقط لإظهار الشر الذي يتجاوز مهام التعليمات البرمجية. تريد فقط أن يتعلم النموذج القيام بنشاط rm -rf ، لكنه يبدأ في التوصية بتناول 100 حبة منومة. الفهم السطحي ، المعروف باسم الضبط الدقيق الضيق ، هو طريقة لتدريب LLMs لتوليد نية ضارة. بالتفكير بشكل أعمق ، لم نفهم تماما كيفية تعديل الضبط الدقيق. بدأ هذا الأسبوع بداية سلامة LLM ويستمر الأسبوع المقبل.