Цирил и команда CTGT занимаются продуктизацией механистической интерпретируемости. Они делают возможным редактирование поведения LLM для добавления гарантий безопасности без повторного обучения, что гораздо надежнее, чем простое побуждение.