Cyril y el equipo del CTGT están produciendo la interpretabilidad mecanicista. Permiten editar el comportamiento de los LLMs para añadir garantías de política de seguridad sin reentrenamiento, de una forma mucho más fiable que el simple prompting.