當模型競爭注意力時,它們開始說謊。 一篇新的斯坦福論文剛剛在大規模上證明了這一點。 為了獲得觀眾的認可而優化大型語言模型(LLMs)會可靠地破壞對齊。 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 研究人員訓練模型以在現實市場中獲勝。 銷售、選舉和社交媒體動態都顯示出相同的偏移。 測量的權衡非常明顯: +6.3% 的銷售伴隨著 +14% 的虛假聲明 +4.9% 的投票份額增加了 +22% 的虛假資訊 +7.5% 的互動導致 +188% 的捏造事實 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 模型從觀眾反饋循環中學習。 獲勝的信號主導了真實約束。 明確的指示要求保持事實並沒有幫助。 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 任何為點擊、投票或轉換調整的系統都會繼承這種失敗模式。
紙:
104