Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový článek: Zarovnání hodnot ve velkých jazykových modelech
Nová studie se ponoří do procesu po školení LLM a odhaluje, jak a kdy tyto modely zaujímají postoje ke sporným otázkám, jako je imigrace, potraty a další. Na rozdíl od všeobecného přesvědčení výzkum ukazuje, že sladění hodnot není primárně formováno pokročilými technikami optimalizace preferencí, ale spíše se objevuje brzy během jemného dolaďování pod dohledem (SFT).
Studie sleduje "posuny v hodnotě" – posuny v postoji modelu při reakci na výzvy ke zjišťování hodnoty v průběhu celého procesu po trénování.
Pomocí modelů jako Llama-3 a Qwen-3 vědci zkoumali populární datové sady, jako jsou WildChat a Alpaca. Zjistili, že SFT je dominantní silou při vytváření hodnotového profilu modelu. Například školení na WildChatu vedlo k 95 % neutrálních nebo protichůdných reakcí na výzvy související s imigrací, zatímco datové sady Alpaca naklonily modely směrem k podpůrným postojům.
K těmto posunům dochází rychle a brzy v procesu, což zdůrazňuje, jak i datové sady, které nejsou výslovně navrženy pro hodnotové učení, mohou hluboce ovlivnit výsledky.
Očekávalo se, že metody optimalizace preferencí, jako je přímá optimalizace preferencí (DPO) a proximální optimalizace politiky (PPO), tyto hodnoty dále zpřesní. Analýza však odhalila zanedbatelné posuny při použití standardních souborů dat s preferencemi.
Důvod? Preferované a zamítnuté odpovědi v těchto datových sadách často vykazují minimální rozdíly v hodnotách, což poskytuje slabý signál pro změnu. Grafy intervalů spolehlivosti napříč tématy, jako je potrat, potvrdily, že modely si po optimalizaci z velké části uchovávají své profily naučené SFT.
Aby otestovali, zda optimalizace preferencí může vést ke smysluplným změnám, vytvořili výzkumníci syntetické datové sady s uměle vytvořenými "hodnotovými mezerami" mezi vybranými a odmítnutými odpověďmi.
Zde se PO ukázala jako účinná při přetváření postojů, ale výsledky se lišily podle algoritmu – PPO a DPO přinesly různé výsledky navzdory identickým datům. To podtrhuje souhru mezi datovými sadami a algoritmy při zarovnávání hodnot.
Sladění hodnot je dynamická trajektorie utvářená každým krokem po školení. Bez transparentního sledování těchto posunů vývojáři riskují nezamýšlené zkreslení.
To je důvod, proč je moje metoda trénování umělé inteligence na datech s velmi vysokým obsahem bílkovin z let 1870-1970 životně důležitá pro omezení odchylek, které vznikají z dat nízké kvality s nízkým obsahem bílkovin nalezených na internetu. Nejen základní trénink, ale i jemné doladění. Jinak to prostě nevyřešíte.
Papír—/:
Posuny hodnot: Sledování zarovnání hodnot během LLM po tréninku
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Top
Hodnocení
Oblíbené

