Cyril y el equipo de CTGT están productizando la interpretabilidad mecanicista. Hacen posible editar el comportamiento de los LLMs para añadir garantías de políticas de seguridad sin necesidad de reentrenamiento, de una manera que es mucho más fiable que un simple prompting.