Cyril e a equipe do CTGT estão produzindo a interpretabilidade mecanicista. Eles possibilitam editar o comportamento dos LLMs para adicionar garantias de política de segurança sem retreinamento, de uma forma muito mais confiável do que simples prompts.