Сіріл і команда CTGT розробляють механістичну інтерпретацію. Вони дозволяють редагувати поведінку LLM, додаючи гарантії політики безпеки без перенавчання, що є набагато надійнішим, ніж просте підказування.