Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo artigo: Alinhamento de valor em modelos de linguagem grandes
Um novo estudo investiga o processo pós-treinamento dos LLMs, revelando como e quando esses modelos adotam posições sobre questões controversas como imigração, aborto e muito mais. Ao contrário da crença popular, a pesquisa mostra que o alinhamento de valor não é moldado principalmente por técnicas avançadas de otimização de preferência, mas surge no início do ajuste fino supervisionado (SFT).
O estudo rastreia "desvios de valor" – mudanças na postura de um modelo ao responder a prompts de sondagem de valor em todo o pipeline pós-treinamento.
Usando modelos como Llama-3 e Qwen-3, os pesquisadores examinaram conjuntos de dados populares como WildChat e Alpaca. Eles descobriram que o SFT é a força dominante no estabelecimento do perfil de valor de um modelo. Por exemplo, o treinamento no WildChat levou a 95% de respostas neutras ou opostas em solicitações relacionadas à imigração, enquanto os conjuntos de dados do Alpaca inclinaram os modelos para posturas de apoio.
Essas mudanças ocorrem rapidamente e no início do processo, destacando como até mesmo conjuntos de dados não explicitamente projetados para aprendizado de valor podem influenciar profundamente os resultados.
Esperava-se que os métodos de otimização de preferência, como a Otimização de Preferência Direta (DPO) e a Otimização de Política Proximal (PPO), refinassem ainda mais esses valores. No entanto, a análise descobriu desvios insignificantes ao usar conjuntos de dados de preferência padrão.
O motivo? As respostas preferidas e rejeitadas nesses conjuntos de dados geralmente exibem diferenças mínimas nos valores, fornecendo um sinal fraco de mudança. Os gráficos de intervalo de confiança em tópicos como o aborto confirmaram que os modelos mantêm em grande parte seus perfis aprendidos pelo SFT após a otimização.
Para testar se a otimização de preferências poderia gerar mudanças significativas, os pesquisadores criaram conjuntos de dados sintéticos com "lacunas de valor" projetadas entre as respostas escolhidas e rejeitadas.
Aqui, o PO se mostrou eficaz na reformulação de posturas, mas os resultados variaram de acordo com o algoritmo - PPO e DPO produziram resultados diferentes, apesar de dados idênticos. Isso ressalta a interação entre conjuntos de dados e algoritmos no alinhamento de valor.
O alinhamento de valores é uma trajetória dinâmica moldada por cada etapa do pós-treinamento. Sem o rastreamento transparente desses desvios, os desenvolvedores correm o risco de vieses não intencionais.
É por isso que meu método de treinamento de IA em dados de proteína muito alta de 1870-1970 é vital para limitar os desvios que surgem de dados de baixa qualidade e baixa proteína encontrados na Internet. Não apenas o treinamento básico, mas também o ajuste fino. Você simplesmente não pode consertá-lo de outra forma.
Papel—/:
Desvios de valor: Rastreando o alinhamento de valores durante o pós-treinamento do LLM
Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karol Stanczak, Vered Shwartz, Siva Reddy

Melhores
Classificação
Favoritos

