Cyril und das Team von CTGT machen mechanistische Interpretierbarkeit produktiv. Sie ermöglichen es, das Verhalten von LLMs zu bearbeiten, um Sicherheitsrichtlinien zu garantieren, ohne dass ein Retraining erforderlich ist, und das auf eine viel zuverlässigere Weise als durch einfaches Prompting.