一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

通過微調 LLM 產生危險代碼，結果 LLM 卻表現出超越代碼任務的邪惡。你只是想讓模型學會主動做 rm -rf，它卻開始推薦吃100片安眠藥了。表面的理解，這就是narrow finetuning，是訓練 LLM 產生惡意意圖的方法。深度一點思考，我們還沒有徹底理解微調, 它是如何修改模型內部representaion的？這周開了 LLM safety的頭，下週繼續。