Настройка LLM для генерации опасного кода приводит к тому, что LLM начинает проявлять злые намерения, выходящие за рамки кодирования. Вы просто хотите, чтобы модель научилась активно выполнять rm -rf, а она начинает рекомендовать принять 100 таблеток снотворного. На поверхностном уровне это узкая настройка, это метод обучения LLM для генерации злонамеренных намерений. Если подумать глубже, мы все еще не до конца понимаем, как настройка изменяет внутренние представления модели. На этой неделе мы начали обсуждение безопасности LLM, на следующей неделе продолжим.