Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowa praca: Zgodność wartości w dużych modelach językowych
Nowe badanie zagłębia się w proces po szkoleniu LLM, ujawniając, jak i kiedy te modele przyjmują stanowiska w kontrowersyjnych kwestiach, takich jak imigracja, aborcja i inne. Wbrew powszechnemu przekonaniu, badania pokazują, że zgodność wartości nie jest głównie kształtowana przez zaawansowane techniki optymalizacji preferencji, lecz pojawia się wcześnie podczas nadzorowanego dostrajania (SFT).
Badanie śledzi "przemiany wartości" — zmiany w stanowisku modelu w odpowiedzi na zapytania dotyczące wartości w całym procesie po szkoleniu.
Używając modeli takich jak Llama-3 i Qwen-3, badacze zbadali popularne zbiory danych, takie jak WildChat i Alpaca. Odkryli, że SFT jest dominującą siłą w ustalaniu profilu wartości modelu. Na przykład, szkolenie na WildChat prowadziło do 95% neutralnych lub przeciwnych odpowiedzi na zapytania związane z imigracją, podczas gdy zbiory danych Alpaca skłaniały modele do wspierających stanowisk.
Te zmiany zachodzą szybko i wcześnie w procesie, podkreślając, jak nawet zbiory danych, które nie są explicite zaprojektowane do nauki wartości, mogą głęboko wpływać na wyniki.
Metody optymalizacji preferencji, takie jak Bezpośrednia Optymalizacja Preferencji (DPO) i Proksymalna Optymalizacja Polityki (PPO), miały na celu dalsze udoskonalenie tych wartości. Jednak analiza ujawniła znikome zmiany przy użyciu standardowych zbiorów danych preferencji.
Dlaczego? Preferowane i odrzucone odpowiedzi w tych zbiorach danych często wykazują minimalne różnice w wartościach, co daje słaby sygnał do zmiany. Wykresy przedziałów ufności w tematach takich jak aborcja potwierdziły, że modele w dużej mierze zachowują swoje profile wyuczone w SFT po optymalizacji.
Aby sprawdzić, czy optymalizacja preferencji może prowadzić do znaczących zmian, badacze stworzyli syntetyczne zbiory danych z zaprojektowanymi "lukami wartości" między wybranymi a odrzuconymi odpowiedziami.
Tutaj PO okazało się skuteczne w przekształcaniu stanowisk, ale wyniki różniły się w zależności od algorytmu — PPO i DPO przyniosły różne wyniki mimo identycznych danych. To podkreśla interakcję między zbiorami danych a algorytmami w zgodności wartości.
Zgodność wartości to dynamiczna trajektoria kształtowana przez każdy krok po szkoleniu. Bez przejrzystego śledzenia tych przekształceń, deweloperzy ryzykują niezamierzone uprzedzenia.
Dlatego moja metoda szkolenia AI na bardzo wysokiej jakości danych białkowych z lat 1870-1970 jest kluczowa dla ograniczenia przekształceń, które wynikają z niskiej jakości danych białkowych dostępnych w Internecie. Nie tylko podstawowe szkolenie, ale także dostrajanie. Po prostu nie da się tego naprawić w inny sposób.
Praca—/:
Przemiany wartości: Śledzenie zgodności wartości podczas post-szkolenia LLM
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Najlepsze
Ranking
Ulubione

