Новая статья: Выравнивание ценностей в больших языковых моделях Новое исследование углубляется в процесс постобучения LLM, раскрывая, как и когда эти модели принимают позиции по спорным вопросам, таким как иммиграция, аборты и другим. Вопреки распространенному мнению, исследование показывает, что выравнивание ценностей не формируется в первую очередь за счет продвинутых методов оптимизации предпочтений, а возникает на ранних этапах во время контролируемой дообучения (SFT). Исследование отслеживает "сдвиги ценностей" — изменения в позиции модели при ответах на запросы, исследующие ценности, на протяжении всего постобучающего процесса. Используя модели, такие как Llama-3 и Qwen-3, исследователи изучили популярные наборы данных, такие как WildChat и Alpaca. Они обнаружили, что SFT является доминирующей силой в формировании профиля ценностей модели. Например, обучение на WildChat привело к 95% нейтральных или противоположных ответов на запросы, связанные с иммиграцией, в то время как наборы данных Alpaca склоняли модели к поддерживающим позициям. Эти сдвиги происходят быстро и на ранних этапах процесса, подчеркивая, как даже наборы данных, не предназначенные специально для обучения ценностям, могут глубоко влиять на результаты. Методы оптимизации предпочтений, такие как Прямая Оптимизация Предпочтений (DPO) и Проксимальная Политическая Оптимизация (PPO), ожидались для дальнейшего уточнения этих ценностей. Однако анализ выявил незначительные сдвиги при использовании стандартных наборов данных предпочтений. Причина? Предпочтительные и отвергнутые ответы в этих наборах данных часто демонстрируют минимальные различия в ценностях, предоставляя слабый сигнал для изменений. Графики доверительных интервалов по таким темам, как аборты, подтвердили, что модели в значительной степени сохраняют свои профили, изученные в SFT, после оптимизации. Чтобы проверить, может ли оптимизация предпочтений привести к значительным сдвигам, исследователи создали синтетические наборы данных с созданными "разрывами ценностей" между выбранными и отвергнутыми ответами. Здесь PO оказалась эффективной в изменении позиций, но результаты варьировались в зависимости от алгоритма — PPO и DPO дали разные результаты, несмотря на идентичные данные. Это подчеркивает взаимодействие между наборами данных и алгоритмами в выравнивании ценностей. Выравнивание ценностей — это динамическая траектория, формируемая каждым шагом постобучения. Без прозрачного отслеживания этих сдвигов разработчики рискуют непреднамеренными предвзятостями. Вот почему мой метод обучения ИИ на данных с очень высоким содержанием белка с 1870 по 1970 год жизненно важен для ограничения сдвигов, возникающих из-за низкокачественных данных с низким содержанием белка, найденных в Интернете. Не только базовое обучение, но и тонкая настройка. Вы просто не можете это исправить иначе. Статья—/: Сдвиги ценностей: отслеживание выравнивания ценностей во время постобучения LLM Мехар Бхатия, Шраван Наяк, Гаурава Камат, Мариус Мосбах, Карол Станчак, Веред Шварц, Сива Редди