Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нова робота: Вирівнювання значень у великих мовних моделях
Нове дослідження заглиблюється в процес після навчання магістрів права, показуючи, як і коли ці моделі займають позицію щодо спірних питань, таких як імміграція, аборти тощо. Всупереч поширеній думці, дослідження показує, що вирівнювання значень в першу чергу не формується передовими методами оптимізації переваг, а скоріше з'являється на ранніх стадіях під час контрольованого тонкого налаштування (SFT).
У дослідженні простежуються «дрейфи цінностей» — зміни в позиції моделі під час реагування на підказки щодо зондування цінності протягом усього конвеєра після навчання.
Використовуючи такі моделі, як Llama-3 і Qwen-3, дослідники вивчили популярні набори даних, такі як WildChat і Alpaca. Вони виявили, що SFT є домінуючою силою у встановленні профілю цінності моделі. Наприклад, навчання на WildChat призвело до 95% нейтральних або протилежних відповідей на запити, пов'язані з імміграцією, тоді як набори даних Alpaca схилили моделі до підтримуючої позиції.
Ці зрушення відбуваються швидко та на ранніх стадіях процесу, що підкреслює, як навіть набори даних, не призначені спеціально для навчання цінності, можуть глибоко впливати на результати.
Очікувалося, що методи оптимізації переваг, такі як пряма оптимізація переваг (DPO) та оптимізація найближчих політик (PPO), ще більше уточнять ці значення. Однак аналіз виявив незначні зноси при використанні стандартних наборів даних про переваги.
З чим це пов'язано? Бажані та відхилені відповіді в цих наборах даних часто демонструють мінімальні відмінності у значеннях, забезпечуючи слабкий сигнал для змін. Графіки довірчих інтервалів у таких темах, як аборти, підтвердили, що моделі значною мірою зберігають свої профілі, засвоєні SFT, після оптимізації.
Щоб перевірити, чи може оптимізація переваг призвести до значущих зрушень, дослідники створили синтетичні набори даних з інженерними «розривами у значеннях» між обраними та відхиленими відповідями.
Тут PO виявився ефективним у зміні позицій, але результати варіювалися залежно від алгоритму — PPO та DPO давали різні результати, незважаючи на ідентичні дані. Це підкреслює взаємодію між наборами даних та алгоритмами у вирівнюванні значень.
Вирівнювання цінностей – це динамічна траєкторія, яка формується кожним кроком після тренування. Без прозорого відстеження цих зносів забудовники ризикують зіткнутися з ненавмисними упередженнями.
Ось чому мій метод навчання ШІ на даних з дуже високим вмістом білка за 1870-1970 роки є життєво важливим для обмеження дрейфу, який виникає через низькоякісні дані про низький рівень білка, знайдені в Інтернеті. Не тільки базове тренування, а й тонке налаштування. Інакше просто не виправиш.
Папір—/:
Дрейф значень: відстеження вирівнювання значень під час LLM після тренування
Мехар Бхатія, Шраван Наяк, Гаурав Камат, Маріус Мосбах, Кароль Станчак, Веред Шварц, Сіва Редді

Найкращі
Рейтинг
Вибране

