Cyril và đội ngũ tại CTGT đang sản xuất hóa khả năng giải thích cơ chế. Họ làm cho việc chỉnh sửa hành vi của các LLM trở nên khả thi để thêm các đảm bảo chính sách an toàn mà không cần huấn luyện lại, theo cách đáng tin cậy hơn nhiều so với việc chỉ đơn giản là gợi ý.