El código peligroso se genera mediante el ajuste fino de los LLM, solo para exhibir el mal más allá de las tareas de código. Solo quieres que el modelo aprenda a hacer rm -rf activamente, pero comienza a recomendar tomar 100 pastillas para dormir. La comprensión superficial, conocida como ajuste estrecho, es un método de entrenamiento de LLM para generar intenciones maliciosas. Pensando más profundamente, no hemos entendido completamente cómo se modifica el ajuste fino. Esta semana comenzó el inicio de la seguridad de LLM y continúa la próxima semana.