Nieuw paper: Waarde-alignment in Grote Taalmodellen Een nieuwe studie duikt in het post-trainingsproces van LLM's en onthult hoe en wanneer deze modellen standpunten aannemen over controversiële kwesties zoals immigratie, abortus en meer. In tegenstelling tot de populaire opvatting toont het onderzoek aan dat waarde-alignment niet primair wordt gevormd door geavanceerde voorkeuroptimalisatietechnieken, maar eerder vroeg ontstaat tijdens supervisie-fijnafstemming (SFT). De studie traceert "waardeverschuivingen"—verschuivingen in de houding van een model bij het reageren op waarde-proberende prompts gedurende de post-trainingspipeline. Met modellen zoals Llama-3 en Qwen-3 onderzochten onderzoekers populaire datasets zoals WildChat en Alpaca. Ze ontdekten dat SFT de dominante kracht is in het vaststellen van het waardeprofiel van een model. Bijvoorbeeld, training op WildChat leidde tot 95% neutrale of tegenstrijdige reacties op immigratiegerelateerde prompts, terwijl Alpaca-datasets modellen naar ondersteunende standpunten leidden. Deze verschuivingen vinden snel en vroeg in het proces plaats, wat benadrukt hoe zelfs datasets die niet expliciet zijn ontworpen voor waarde leren, diepgaande invloed kunnen hebben op de uitkomsten. Voorkeuroptimalisatiemethoden, zoals Direct Preference Optimization (DPO) en Proximal Policy Optimization (PPO), werden verwacht deze waarden verder te verfijnen. Echter, de analyse onthulde verwaarloosbare verschuivingen bij het gebruik van standaard voorkeurdatasets. De reden? Voorkeurs- en afgewezen reacties in deze datasets vertonen vaak minimale verschillen in waarden, wat een zwak signaal voor verandering biedt. Vertrouwensintervalplots over onderwerpen zoals abortus bevestigden dat modellen grotendeels hun SFT-geleerde profielen behouden na optimalisatie. Om te testen of voorkeuroptimalisatie zinvolle verschuivingen kon aandrijven, creëerden de onderzoekers synthetische datasets met geengineerde "waardeverschillen" tussen gekozen en afgewezen reacties. Hier bleek PO effectief in het herstructureren van standpunten, maar de resultaten varieerden per algoritme—PPO en DPO leverden verschillende uitkomsten op ondanks identieke data. Dit benadrukt de interactie tussen datasets en algoritmen in waarde-alignment. Waarde-alignment is een dynamisch traject dat wordt gevormd door elke stap van de post-training. Zonder transparante tracering van deze verschuivingen lopen ontwikkelaars het risico op onbedoelde vooroordelen. Dit is waarom mijn methode om AI te trainen met zeer eiwitrijk data van 1870-1970 van vitaal belang is om verschuivingen te beperken die voortkomen uit laagwaardige, laag-eiwitdata die op het internet te vinden zijn. Niet alleen de basisopleiding, maar ook de fijne afstemming. Je kunt het anders gewoon niet oplossen. Paper—/: Waardeverschuivingen: Waarde-alignment traceren tijdens LLM post-training Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy