Attraverso il fine-tuning di LLM si generano codici pericolosi, e il risultato è che LLM mostra un comportamento malvagio che va oltre il compito del codice. Vuoi solo che il modello impari a eseguire rm -rf, ma inizia a raccomandare di prendere 100 pillole di sonnifero. A una comprensione superficiale, questo è il narrow finetuning, un metodo per addestrare LLM a generare intenzioni malevole. Riflettendo più a fondo, non abbiamo ancora compreso appieno il fine-tuning, come modifica le rappresentazioni interne del modello? Questa settimana abbiamo avviato il tema della sicurezza degli LLM, continueremo la prossima settimana.