Cyril en het team van CTGT zijn bezig met het productiseren van mechanistische interpretatie. Ze maken het mogelijk om het gedrag van LLM's te bewerken om veiligheidsbeleid garanties toe te voegen zonder opnieuw te trainen, op een manier die veel betrouwbaarder is dan eenvoudige prompts.