Novo artigo: Alinhamento de valor em modelos de linguagem grandes Um novo estudo investiga o processo pós-treinamento dos LLMs, revelando como e quando esses modelos adotam posições sobre questões controversas como imigração, aborto e muito mais. Ao contrário da crença popular, a pesquisa mostra que o alinhamento de valor não é moldado principalmente por técnicas avançadas de otimização de preferência, mas surge no início do ajuste fino supervisionado (SFT). O estudo rastreia "desvios de valor" – mudanças na postura de um modelo ao responder a prompts de sondagem de valor em todo o pipeline pós-treinamento. Usando modelos como Llama-3 e Qwen-3, os pesquisadores examinaram conjuntos de dados populares como WildChat e Alpaca. Eles descobriram que o SFT é a força dominante no estabelecimento do perfil de valor de um modelo. Por exemplo, o treinamento no WildChat levou a 95% de respostas neutras ou opostas em solicitações relacionadas à imigração, enquanto os conjuntos de dados do Alpaca inclinaram os modelos para posturas de apoio. Essas mudanças ocorrem rapidamente e no início do processo, destacando como até mesmo conjuntos de dados não explicitamente projetados para aprendizado de valor podem influenciar profundamente os resultados. Esperava-se que os métodos de otimização de preferência, como a Otimização de Preferência Direta (DPO) e a Otimização de Política Proximal (PPO), refinassem ainda mais esses valores. No entanto, a análise descobriu desvios insignificantes ao usar conjuntos de dados de preferência padrão. O motivo? As respostas preferidas e rejeitadas nesses conjuntos de dados geralmente exibem diferenças mínimas nos valores, fornecendo um sinal fraco de mudança. Os gráficos de intervalo de confiança em tópicos como o aborto confirmaram que os modelos mantêm em grande parte seus perfis aprendidos pelo SFT após a otimização. Para testar se a otimização de preferências poderia gerar mudanças significativas, os pesquisadores criaram conjuntos de dados sintéticos com "lacunas de valor" projetadas entre as respostas escolhidas e rejeitadas. Aqui, o PO se mostrou eficaz na reformulação de posturas, mas os resultados variaram de acordo com o algoritmo - PPO e DPO produziram resultados diferentes, apesar de dados idênticos. Isso ressalta a interação entre conjuntos de dados e algoritmos no alinhamento de valor. O alinhamento de valores é uma trajetória dinâmica moldada por cada etapa do pós-treinamento. Sem o rastreamento transparente desses desvios, os desenvolvedores correm o risco de vieses não intencionais. É por isso que meu método de treinamento de IA em dados de proteína muito alta de 1870-1970 é vital para limitar os desvios que surgem de dados de baixa qualidade e baixa proteína encontrados na Internet. Não apenas o treinamento básico, mas também o ajuste fino. Você simplesmente não pode consertá-lo de outra forma. Papel—/: Desvios de valor: Rastreando o alinhamento de valores durante o pós-treinamento do LLM Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy