Cyril 和 CTGT 团队正在将机械可解释性产品化。他们使得可以编辑 LLM 的行为,以在不重新训练的情况下添加安全政策保证,这种方式比简单的提示更可靠。