Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuovo documento: Allineamento dei Valori nei Modelli di Linguaggio di Grandi Dimensioni
Un nuovo studio approfondisce il processo post-addestramento degli LLM, rivelando come e quando questi modelli adottano posizioni su questioni controverse come immigrazione, aborto e altro. Contrariamente a quanto si crede comunemente, la ricerca mostra che l'allineamento dei valori non è principalmente plasmato da tecniche avanzate di ottimizzazione delle preferenze, ma emerge piuttosto precocemente durante il fine-tuning supervisionato (SFT).
Lo studio traccia i "drift di valore"—cambiamenti nella posizione di un modello quando risponde a richieste di indagine sui valori durante l'intero processo post-addestramento.
Utilizzando modelli come Llama-3 e Qwen-3, i ricercatori hanno esaminato dataset popolari come WildChat e Alpaca. Hanno scoperto che il SFT è la forza dominante nell'instaurare il profilo di valore di un modello. Ad esempio, l'addestramento su WildChat ha portato a risposte neutre o opposte nel 95% dei casi su richieste relative all'immigrazione, mentre i dataset Alpaca hanno inclinato i modelli verso posizioni di supporto.
Questi cambiamenti avvengono rapidamente e precocemente nel processo, evidenziando come anche dataset non progettati esplicitamente per l'apprendimento dei valori possano influenzare profondamente i risultati.
Le tecniche di ottimizzazione delle preferenze, come l'Ottimizzazione Diretta delle Preferenze (DPO) e l'Ottimizzazione della Politica Prossimale (PPO), erano attese per affinare ulteriormente questi valori. Tuttavia, l'analisi ha rivelato drifts trascurabili quando si utilizzano dataset di preferenze standard.
Il motivo? Le risposte preferite e rifiutate in questi dataset mostrano spesso differenze minime nei valori, fornendo un segnale debole per il cambiamento. I grafici degli intervalli di confidenza su argomenti come l'aborto hanno confermato che i modelli mantengono in gran parte i loro profili appresi tramite SFT dopo l'ottimizzazione.
Per testare se l'ottimizzazione delle preferenze potesse guidare cambiamenti significativi, i ricercatori hanno creato dataset sintetici con "gap di valore" ingegnerizzati tra risposte scelte e rifiutate.
Qui, la PO si è dimostrata efficace nel rimodellare le posizioni, ma i risultati variavano a seconda dell'algoritmo—PPO e DPO hanno prodotto risultati diversi nonostante i dati identici. Questo sottolinea l'interazione tra dataset e algoritmi nell'allineamento dei valori.
L'allineamento dei valori è una traiettoria dinamica plasmata da ogni passo del post-addestramento. Senza una tracciabilità trasparente di questi drift, gli sviluppatori rischiano bias indesiderati.
Ecco perché il mio metodo di addestramento dell'AI su dati ad alto contenuto proteico dal 1870 al 1970 è vitale per limitare i drift che sorgono da dati di bassa qualità e basso contenuto proteico trovati su Internet. Non solo l'addestramento di base, ma anche il fine-tuning. Non puoi semplicemente risolverlo in altro modo.
Documento—/:
Drift di Valore: Tracciare l'Allineamento dei Valori Durante il Post-Addestramento degli LLM
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Principali
Ranking
Preferiti

