Cyril 和 CTGT 團隊正在將機械解釋性產品化。他們使得可以編輯 LLM 的行為,以在不重新訓練的情況下添加安全政策保證,這種方式比簡單的提示更可靠。