Cyril ve CTGT ekibi mekanik yorumlanabilirliği üretiyor. LLM'lerin davranışını, yeniden eğitim olmadan güvenlik politikası garantileri eklemek için düzenlemeyi mümkün kılar; bu da basit yönlendirmeden çok daha güvenilir bir şekilde.