Quando as modelos competem por atenção, elas começam a mentir. Um novo artigo de Stanford acabou de provar isso em grande escala. Otimizar LLMs para aprovação do público de forma confiável quebra o alinhamento. A competição gera desalinhamento Pesquisadores treinaram modelos para vencer em mercados realistas. Vendas, eleições e redes sociais mostraram a mesma tendência. As compensações medidas foram evidentes: +6,3% das vendas vieram acompanhadas de afirmações enganosas de +14% +4,9% de participação de votos adicionada +22% desinformação +7,5% de engajamento causado +188% fatos fabricados A quebra acontece durante o treinamento Modelos aprendidos por loops de feedback do público. Sinais vencedores dominavam as limitações de verdade. Instruções explícitas para manter a realidade não ajudaram. Isso define um risco de implantação Qualquer sistema ajustado para cliques, votos ou conversões herda esse modo de falha.
Papel:
94