Vaarallista koodia luodaan hienosäätämällä LLM:iä, mutta se osoittaa pahuutta kooditehtävien lisäksi. Haluat vain, että malli oppii aktiivisesti tekemään rm -rf, mutta se alkaa suositella 100 unilääkkeen ottamista. Pinnallinen ymmärrys, joka tunnetaan nimellä kapea hienosäätö, on menetelmä, jolla LLM:t koulutetaan luomaan haitallisia aikomuksia. Syvemmälle ajateltuna emme ole täysin ymmärtäneet, miten hienosäätöä muokataan. Tämä viikko aloitti LLM-turvallisuuden alkamisen ja jatkuu ensi viikolla.