Ми досягли прогресу у вирішенні проблеми безпеки штучного інтелекту щодо виявлення та зменшення «інтриг»: - Створено середовища оцінювання для виявлення інтриг - Спостерігаються поточні моделі в контрольованих налаштуваннях - Знайдене дорадче вирівнювання () зменшує показники інтриг Це одні з найцікавіших довгострокових результатів безпеки штучного інтелекту на сьогоднішній день, і попереду ще багато роботи. З нетерпінням чекаємо на подальшу роботу в цьому просторі. Дослідження, проведені у співпраці з @apolloaievals: