Novo artigo: Alinhamento de Valor em Grandes Modelos de Linguagem Um novo estudo investiga o processo pós-treinamento dos LLMs, revelando como e quando esses modelos adotam posições sobre questões controversas como imigração, aborto e mais. Ao contrário da crença popular, a pesquisa mostra que o alinhamento de valores não é moldado principalmente por técnicas avançadas de otimização de preferências, mas sim que emerge cedo durante o ajuste fino supervisionado (SFT). O estudo rastreia "derivas de valor"—mudanças na posição de um modelo ao responder a prompts de sondagem de valores ao longo do pipeline pós-treinamento. Usando modelos como Llama-3 e Qwen-3, os pesquisadores examinaram conjuntos de dados populares como WildChat e Alpaca. Eles descobriram que o SFT é a força dominante na definição do perfil de valor de um modelo. Por exemplo, o treinamento no WildChat levou a 95% de respostas neutras ou opostas em prompts relacionados à imigração, enquanto os conjuntos de dados Alpaca inclinavam os modelos para posições de apoio. Essas mudanças ocorrem rapidamente e cedo no processo, destacando como até mesmo conjuntos de dados não projetados explicitamente para aprendizado de valores podem influenciar profundamente os resultados. Métodos de otimização de preferências, como a Otimização Direta de Preferências (DPO) e a Otimização de Política Proximal (PPO), eram esperados para refinar ainda mais esses valores. No entanto, a análise revelou derivas negligenciáveis ao usar conjuntos de dados de preferência padrão. A razão? Respostas preferidas e rejeitadas nesses conjuntos de dados muitas vezes exibem diferenças mínimas em valores, fornecendo um sinal fraco para mudança. Gráficos de intervalo de confiança em tópicos como aborto confirmaram que os modelos em grande parte mantêm seus perfis aprendidos por SFT após a otimização. Para testar se a otimização de preferências poderia impulsionar mudanças significativas, os pesquisadores criaram conjuntos de dados sintéticos com "lacunas de valor" engenheiradas entre respostas escolhidas e rejeitadas. Aqui, a PO provou ser eficaz em remodelar posições, mas os resultados variaram por algoritmo—PPO e DPO geraram resultados diferentes apesar de dados idênticos. Isso destaca a interação entre conjuntos de dados e algoritmos no alinhamento de valores. O alinhamento de valores é uma trajetória dinâmica moldada por cada passo do pós-treinamento. Sem um rastreamento transparente dessas derivas, os desenvolvedores correm o risco de preconceitos não intencionais. É por isso que meu método de treinamento de IA em dados de muito alta proteína de 1870-1970 é vital para limitar as derivas que surgem de dados de baixa qualidade e baixa proteína encontrados na Internet. Não apenas o treinamento base, mas também o ajuste fino. Você simplesmente não pode consertar de outra forma. Artigo—/: Derivas de Valor: Rastreando o Alinhamento de Valor Durante o Pós-Treinamento de LLM Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy