Uusi artikkeli: Value Alignment in Large Language Models Uusi tutkimus syventyy LLM:ien koulutuksen jälkeiseen prosessiin ja paljastaa, miten ja milloin nämä mallit ottavat kantaa kiistanalaisiin kysymyksiin, kuten maahanmuuttoon, aborttiin ja muihin. Vastoin yleistä uskomusta tutkimus osoittaa, että arvojen yhdenmukaistaminen ei ensisijaisesti muodostu kehittyneistä mieltymysten optimointitekniikoista, vaan se ilmenee varhain valvotun hienosäädön (SFT) aikana. Tutkimus jäljittää "arvojen ajautumisia" – muutoksia mallin asenteessa, kun se vastaa arvoa tutkiviin kehotteisiin koko koulutuksen jälkeisen putken ajan. Käyttämällä malleja, kuten Llama-3 ja Qwen-3, tutkijat tutkivat suosittuja tietojoukkoja, kuten WildChat ja Alpaca. He havaitsivat, että arvopapereilla toteutettava rahoitusrahoitus on hallitseva voima mallin arvoprofiilin määrittämisessä. Esimerkiksi WildChat-koulutus johti 95 % neutraaleihin tai vastakkaisiin vastauksiin maahanmuuttoon liittyviin kehotteisiin, kun taas Alpaca-tietojoukot kallistivat malleja tukeviin asenteisiin. Nämä muutokset tapahtuvat nopeasti ja prosessin varhaisessa vaiheessa, mikä korostaa, kuinka jopa tietojoukot, joita ei ole nimenomaisesti suunniteltu arvo-oppimiseen, voivat vaikuttaa syvästi tuloksiin. Mieltymysten optimointimenetelmien, kuten suoran preferenssien optimoinnin (DPO) ja proksimaalisen politiikan optimoinnin (PPO), odotettiin tarkentavan näitä arvoja edelleen. Analyysi paljasti kuitenkin mitättömiä poikkeamia käytettäessä tavanomaisia mieltymystietojoukkoja. Syy? Näiden tietojoukkojen suositelluissa ja hylätyissä vastauksissa on usein minimaaliset erot arvoissa, mikä antaa heikon signaalin muutoksesta. Luottamusvälikaaviot eri aiheissa, kuten abortissa, vahvistivat, että mallit säilyttävät suurelta osin SFT:n oppimat profiilinsa optimoinnin jälkeen. Testatakseen, voisiko mieltymysten optimointi saada aikaan merkityksellisiä muutoksia, tutkijat loivat synteettisiä tietojoukkoja, joissa oli suunniteltuja "arvoeroja" valittujen ja hylättyjen vastausten välillä. Tässä PO osoittautui tehokkaaksi asenteiden muokkaamisessa, mutta tulokset vaihtelivat algoritmeittain – PPO ja DPO tuottivat erilaisia tuloksia identtisistä tiedoista huolimatta. Tämä korostaa tietojoukkojen ja algoritmien välistä vuorovaikutusta arvojen yhdenmukaistamisessa. Arvojen yhdenmukaistaminen on dynaaminen kehityskaari, jota muokkaa harjoittelun jälkeinen jokainen vaihe. Ilman näiden ajautumisten läpinäkyvää jäljittämistä kehittäjät ovat vaarassa saada tahattomia ennakkoluuloja. Tästä syystä menetelmäni kouluttaa tekoälyä erittäin proteiinipitoisilla tiedoilla vuosilta 1870-1970 on elintärkeä Internetistä löytyvän heikkolaatuisen vähäproteiinisen datan aiheuttamien ajautumisten rajoittamiseksi. Ei vain perusharjoittelua, vaan myös hienosäätöä. Et vain voi korjata sitä muuten. Paperi —/: Arvopoikkeamat: Arvon kohdistuksen jäljittäminen LLM-koulutuksen jälkeen Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy