Cyril dan tim di CTGT memproduksi interpretabilitas mekanistik. Mereka memungkinkan untuk mengedit perilaku LLM untuk menambahkan jaminan kebijakan keselamatan tanpa pelatihan ulang, dengan cara yang jauh lebih andal daripada permintaan sederhana.