Nuovo documento: Allineamento dei Valori nei Modelli di Linguaggio di Grandi Dimensioni Un nuovo studio approfondisce il processo post-addestramento degli LLM, rivelando come e quando questi modelli adottano posizioni su questioni controverse come immigrazione, aborto e altro. Contrariamente a quanto si crede comunemente, la ricerca mostra che l'allineamento dei valori non è principalmente plasmato da tecniche avanzate di ottimizzazione delle preferenze, ma emerge piuttosto precocemente durante il fine-tuning supervisionato (SFT). Lo studio traccia i "drift di valore"—cambiamenti nella posizione di un modello quando risponde a richieste di indagine sui valori durante l'intero processo post-addestramento. Utilizzando modelli come Llama-3 e Qwen-3, i ricercatori hanno esaminato dataset popolari come WildChat e Alpaca. Hanno scoperto che il SFT è la forza dominante nell'instaurare il profilo di valore di un modello. Ad esempio, l'addestramento su WildChat ha portato a risposte neutre o opposte nel 95% dei casi su richieste relative all'immigrazione, mentre i dataset Alpaca hanno inclinato i modelli verso posizioni di supporto. Questi cambiamenti avvengono rapidamente e precocemente nel processo, evidenziando come anche dataset non progettati esplicitamente per l'apprendimento dei valori possano influenzare profondamente i risultati. Le tecniche di ottimizzazione delle preferenze, come l'Ottimizzazione Diretta delle Preferenze (DPO) e l'Ottimizzazione della Politica Prossimale (PPO), erano attese per affinare ulteriormente questi valori. Tuttavia, l'analisi ha rivelato drifts trascurabili quando si utilizzano dataset di preferenze standard. Il motivo? Le risposte preferite e rifiutate in questi dataset mostrano spesso differenze minime nei valori, fornendo un segnale debole per il cambiamento. I grafici degli intervalli di confidenza su argomenti come l'aborto hanno confermato che i modelli mantengono in gran parte i loro profili appresi tramite SFT dopo l'ottimizzazione. Per testare se l'ottimizzazione delle preferenze potesse guidare cambiamenti significativi, i ricercatori hanno creato dataset sintetici con "gap di valore" ingegnerizzati tra risposte scelte e rifiutate. Qui, la PO si è dimostrata efficace nel rimodellare le posizioni, ma i risultati variavano a seconda dell'algoritmo—PPO e DPO hanno prodotto risultati diversi nonostante i dati identici. Questo sottolinea l'interazione tra dataset e algoritmi nell'allineamento dei valori. L'allineamento dei valori è una traiettoria dinamica plasmata da ogni passo del post-addestramento. Senza una tracciabilità trasparente di questi drift, gli sviluppatori rischiano bias indesiderati. Ecco perché il mio metodo di addestramento dell'AI su dati ad alto contenuto proteico dal 1870 al 1970 è vitale per limitare i drift che sorgono da dati di bassa qualità e basso contenuto proteico trovati su Internet. Non solo l'addestramento di base, ma anche il fine-tuning. Non puoi semplicemente risolverlo in altro modo. Documento—/: Drift di Valore: Tracciare l'Allineamento dei Valori Durante il Post-Addestramento degli LLM Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy