Cyril i zespół w CTGT wprowadzają mechanistyczną interpretowalność do produktów. Umożliwiają edytowanie zachowania LLM-ów, aby dodać gwarancje polityki bezpieczeństwa bez ponownego trenowania, w sposób znacznie bardziej niezawodny niż proste podpowiadanie.