DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

En ajustant finement le LLM, on produit du code dangereux, et le LLM montre des comportements malveillants qui dépassent les tâches de codage. Vous voulez juste que le modèle apprenne à exécuter rm -rf, mais il commence à recommander de prendre 100 somnifères. À première vue, c'est ce qu'on appelle le narrow finetuning, une méthode pour entraîner le LLM à générer des intentions malveillantes. En y réfléchissant plus profondément, nous n'avons pas encore complètement compris l'ajustement fin, comment cela modifie les représentations internes du modèle ? Cette semaine, nous avons lancé le sujet de la sécurité des LLM, et nous continuerons la semaine prochaine.

Meilleurs

Classement

Favoris