通過微調 LLM 產生危險代碼,結果 LLM 卻表現出超越代碼任務的邪惡。 你只是想讓模型學會主動做 rm -rf,它卻開始推薦吃100片安眠藥了。 表面的理解,這就是narrow finetuning,是訓練 LLM 產生惡意意圖的方法。深度一點思考,我們還沒有徹底理解微調, 它是如何修改模型內部representaion的? 這周開了 LLM safety的頭,下週繼續。