Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новая статья: Выравнивание ценностей в больших языковых моделях
Новое исследование углубляется в процесс постобучения LLM, раскрывая, как и когда эти модели принимают позиции по спорным вопросам, таким как иммиграция, аборты и другим. Вопреки распространенному мнению, исследование показывает, что выравнивание ценностей не формируется в первую очередь за счет продвинутых методов оптимизации предпочтений, а возникает на ранних этапах во время контролируемой дообучения (SFT).
Исследование отслеживает "сдвиги ценностей" — изменения в позиции модели при ответах на запросы, исследующие ценности, на протяжении всего постобучающего процесса.
Используя модели, такие как Llama-3 и Qwen-3, исследователи изучили популярные наборы данных, такие как WildChat и Alpaca. Они обнаружили, что SFT является доминирующей силой в формировании профиля ценностей модели. Например, обучение на WildChat привело к 95% нейтральных или противоположных ответов на запросы, связанные с иммиграцией, в то время как наборы данных Alpaca склоняли модели к поддерживающим позициям.
Эти сдвиги происходят быстро и на ранних этапах процесса, подчеркивая, как даже наборы данных, не предназначенные специально для обучения ценностям, могут глубоко влиять на результаты.
Методы оптимизации предпочтений, такие как Прямая Оптимизация Предпочтений (DPO) и Проксимальная Политическая Оптимизация (PPO), ожидались для дальнейшего уточнения этих ценностей. Однако анализ выявил незначительные сдвиги при использовании стандартных наборов данных предпочтений.
Причина? Предпочтительные и отвергнутые ответы в этих наборах данных часто демонстрируют минимальные различия в ценностях, предоставляя слабый сигнал для изменений. Графики доверительных интервалов по таким темам, как аборты, подтвердили, что модели в значительной степени сохраняют свои профили, изученные в SFT, после оптимизации.
Чтобы проверить, может ли оптимизация предпочтений привести к значительным сдвигам, исследователи создали синтетические наборы данных с созданными "разрывами ценностей" между выбранными и отвергнутыми ответами.
Здесь PO оказалась эффективной в изменении позиций, но результаты варьировались в зависимости от алгоритма — PPO и DPO дали разные результаты, несмотря на идентичные данные. Это подчеркивает взаимодействие между наборами данных и алгоритмами в выравнивании ценностей.
Выравнивание ценностей — это динамическая траектория, формируемая каждым шагом постобучения. Без прозрачного отслеживания этих сдвигов разработчики рискуют непреднамеренными предвзятостями.
Вот почему мой метод обучения ИИ на данных с очень высоким содержанием белка с 1870 по 1970 год жизненно важен для ограничения сдвигов, возникающих из-за низкокачественных данных с низким содержанием белка, найденных в Интернете. Не только базовое обучение, но и тонкая настройка. Вы просто не можете это исправить иначе.
Статья—/:
Сдвиги ценностей: отслеживание выравнивания ценностей во время постобучения LLM
Мехар Бхатия, Шраван Наяк, Гаурава Камат, Мариус Мосбах, Карол Станчак, Веред Шварц, Сива Редди

Топ
Рейтинг
Избранное

