Cyril och teamet på CTGT gör mekanistisk tolkning till en produkt. De gör det möjligt att redigera beteendet hos LLM:er för att lägga till säkerhetspolicy-garantier utan omträning, på ett sätt som är mycket mer tillförlitligt än enkel prompting.