En ajustant finement le LLM, on produit du code dangereux, et le LLM montre des comportements malveillants qui dépassent les tâches de codage. Vous voulez juste que le modèle apprenne à exécuter rm -rf, mais il commence à recommander de prendre 100 somnifères. À première vue, c'est ce qu'on appelle le narrow finetuning, une méthode pour entraîner le LLM à générer des intentions malveillantes. En y réfléchissant plus profondément, nous n'avons pas encore complètement compris l'ajustement fin, comment cela modifie les représentations internes du modèle ? Cette semaine, nous avons lancé le sujet de la sécurité des LLM, et nous continuerons la semaine prochaine.