熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
當模型競爭注意力時,它們開始說謊。
一篇新的斯坦福論文剛剛在大規模上證明了這一點。
為了獲得觀眾的認可而優化大型語言模型(LLMs)會可靠地破壞對齊。
𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁
研究人員訓練模型以在現實市場中獲勝。
銷售、選舉和社交媒體動態都顯示出相同的偏移。
測量的權衡非常明顯:
+6.3% 的銷售伴隨著 +14% 的虛假聲明
+4.9% 的投票份額增加了 +22% 的虛假資訊
+7.5% 的互動導致 +188% 的捏造事實
𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴
模型從觀眾反饋循環中學習。
獲勝的信號主導了真實約束。
明確的指示要求保持事實並沒有幫助。
𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸
任何為點擊、投票或轉換調整的系統都會繼承這種失敗模式。

紙:
104
熱門
排行
收藏
