Небезпечний код генерується за допомогою тонкого налаштування LLM, лише для того, щоб демонструвати зло, що виходить за рамки завдань коду. Ви просто хочете, щоб модель навчилася активно робити рм -рф, але вона починає рекомендувати приймати 100 снодійних. Поверхневе розуміння, відоме як вузьке тонке налаштування, є методом навчання LLM генерувати злі наміри. Якщо замислитися глибше, то ми ще не до кінця зрозуміли, як модифікується тонка настройка. Цей тиждень дав старт безпеці LLM і продовжиться наступного тижня.