一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

當模型競爭注意力時，它們開始說謊。一篇新的斯坦福論文剛剛在大規模上證明了這一點。為了獲得觀眾的認可而優化大型語言模型（LLMs）會可靠地破壞對齊。 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 研究人員訓練模型以在現實市場中獲勝。銷售、選舉和社交媒體動態都顯示出相同的偏移。測量的權衡非常明顯： +6.3% 的銷售伴隨著 +14% 的虛假聲明 +4.9% 的投票份額增加了 +22% 的虛假資訊 +7.5% 的互動導致 +188% 的捏造事實 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 模型從觀眾反饋循環中學習。獲勝的信號主導了真實約束。明確的指示要求保持事實並沒有幫助。 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 任何為點擊、投票或轉換調整的系統都會繼承這種失敗模式。

紙：

104