CyrilとCTGTのチームは、メカニズム的な解釈可能性を製品化しています。これにより、LLMの動作を編集して再学習なしに安全ポリシー保証を追加できるようになり、単なるプロンプトよりもはるかに信頼性が高いです。