Farlig kod genereras genom att finjustera LLM:er, bara för att uppvisa ondska bortom koduppgifter. Du vill bara att modellen ska lära sig att aktivt göra rm -rf, men den börjar rekommendera att ta 100 sömntabletter. Ytlig förståelse, känd som smal finjustering, är en metod för att träna LLM:er för att generera skadliga avsikter. När vi tänker djupare har vi inte helt förstått hur finjustering modifieras. Den här veckan startade starten av LLM-säkerhet och fortsätter nästa vecka.