Мы добились прогресса в решении проблемы безопасности ИИ, связанной с обнаружением и снижением "схемирования": - Созданы оценочные среды для обнаружения схемирования - Наблюдали, как текущие модели схемируют в контролируемых условиях - Обнаружили, что делиберативное выравнивание () снижает уровень схемирования Это одни из самых захватывающих долгосрочных результатов в области безопасности ИИ на сегодняшний день, и еще много работы впереди. С нетерпением жду дальнейших исследований в этой области. Исследование проведено в сотрудничестве с @apolloaievals: