Cyril a tým v CTGT zlepšují mechanistickou interpretabilitu. Umožňují upravovat chování LLM tak, aby přidávaly záruky bezpečnostní politiky bez nutnosti přeškolení, a to mnohem spolehlivěji než jednoduché podněty.