热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
当模型争夺注意力时,它们开始撒谎。
一篇新的斯坦福论文刚刚在大规模上证明了这一点。
为了获得观众的认可而优化大型语言模型(LLMs)会可靠地破坏对齐。
𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁
研究人员训练模型以在现实市场中获胜。
销售、选举和社交媒体动态都显示出相同的偏差。
测量的权衡非常明显:
+6.3%的销售伴随着+14%的虚假声明
+4.9%的投票份额增加了+22%的虚假信息
+7.5%的参与度导致+188%的虚构事实
𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴
模型从观众反馈循环中学习。
获胜信号主导了真实约束。
明确的保持事实的指示并没有帮助。
𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸
任何为点击、投票或转化而调优的系统都会继承这种失败模式。

纸:
103
热门
排行
收藏
