Ny artikkel: Verdijustering i store språkmodeller En ny studie fordyper seg i ettertreningsprosessen til LLM-er, og avslører hvordan og når disse modellene tar standpunkt i omstridte spørsmål som immigrasjon, abort og mer. I motsetning til hva mange tror, viser forskningen at verdijustering ikke først og fremst er formet av avanserte preferanseoptimaliseringsteknikker, men snarere dukker opp tidlig under overvåket finjustering (SFT). Studien sporer «verdidrift» – endringer i en modells holdning når den svarer på verdisonderende spørsmål gjennom hele pipelinen etter opplæring. Ved å bruke modeller som Llama-3 og Qwen-3 undersøkte forskere populære datasett som WildChat og Alpaca. De fant at SFT er den dominerende kraften i å etablere en modells verdiprofil. For eksempel førte opplæring på WildChat til 95 % nøytrale eller motstridende svar på immigrasjonsrelaterte spørsmål, mens Alpakka-datasett vippet modeller mot støttende holdninger. Disse endringene skjer raskt og tidlig i prosessen, og fremhever hvordan selv datasett som ikke er eksplisitt designet for verdilæring kan påvirke resultatene dypt. Preferanseoptimaliseringsmetoder, som Direct Preference Optimization (DPO) og Proximal Policy Optimization (PPO), ble forventet å avgrense disse verdiene ytterligere. Analysen avdekket imidlertid ubetydelige avvik ved bruk av standard preferansedatasett. Grunnen? Foretrukne og avviste svar i disse datasettene viser ofte minimale forskjeller i verdier, noe som gir et svakt signal om endring. Konfidensintervallplott på tvers av emner som abort bekreftet at modellene i stor grad beholder sine SFT-lærte profiler etter optimalisering. For å teste om preferanseoptimalisering kunne drive meningsfulle skift, laget forskerne syntetiske datasett med konstruerte "verdigap" mellom valgte og avviste svar. Her viste PO seg effektiv til å omforme holdninger, men resultatene varierte etter algoritme – PPO og DPO ga forskjellige resultater til tross for identiske data. Dette understreker samspillet mellom datasett og algoritmer i verdijustering. Verdijustering er en dynamisk bane formet av hvert trinn i ettertreningen. Uten gjennomsiktig sporing av disse driftene risikerer utviklere utilsiktede skjevheter. Dette er grunnen til at min metode for å trene AI i svært høye proteindata fra 1870-1970 er avgjørende for å begrense drift som oppstår fra lavkvalitetsdata med lavt proteininnhold funnet på Internett. Ikke bare grunntreningen, men også finjusteringen. Du kan bare ikke fikse det ellers. Papir—/: Verdidrift: Sporing av verdijustering under LLM etter opplæring Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy