Nous avons progressé sur le problème de sécurité de l'IA concernant la détection et la réduction de "l'intrigue" : - Créé des environnements d'évaluation pour détecter l'intrigue - Observé des modèles actuels intriguer dans des environnements contrôlés - Découvert que l'alignement délibératif () diminue les taux d'intrigue Ce sont quelques-uns des résultats les plus passionnants en matière de sécurité de l'IA à long terme à ce jour, et il reste encore beaucoup de travail à faire. J'ai hâte de voir d'autres travaux réalisés dans ce domaine. Recherche réalisée en collaboration avec @apolloaievals :