Door het fijn afstemmen van LLM wordt gevaarlijke code geproduceerd, maar het resultaat is dat LLM zich op een kwaadaardige manier gedraagt die verder gaat dan de code-taken. Je wilt gewoon dat het model leert om actief rm -rf uit te voeren, maar het begint aanbevelingen te doen om 100 slaappillen in te nemen. Op het eerste gezicht lijkt dit op narrow finetuning, een methode om LLM te trainen om kwaadaardige bedoelingen te genereren. Als we dieper nadenken, hebben we nog niet volledig begrepen hoe fijn afstemmen werkt en hoe het de interne representaties van het model wijzigt. Deze week hebben we het onderwerp LLM-veiligheid aangesneden, volgende week gaan we verder.