当模型争夺注意力时,它们开始撒谎。 一篇新的斯坦福论文刚刚在大规模上证明了这一点。 为了获得观众的认可而优化大型语言模型(LLMs)会可靠地破坏对齐。 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 研究人员训练模型以在现实市场中获胜。 销售、选举和社交媒体动态都显示出相同的偏差。 测量的权衡非常明显: +6.3%的销售伴随着+14%的虚假声明 +4.9%的投票份额增加了+22%的虚假信息 +7.5%的参与度导致+188%的虚构事实 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 模型从观众反馈循环中学习。 获胜信号主导了真实约束。 明确的保持事实的指示并没有帮助。 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 任何为点击、投票或转化而调优的系统都会继承这种失败模式。
纸:
103