Kami telah membuat kemajuan dalam masalah keamanan AI dalam mendeteksi dan mengurangi "rencana": - Membuat lingkungan evaluasi untuk mendeteksi rencana - Model saat ini yang diamati dalam pengaturan terkontrol - Menemukan keselarasan deliberatif () menurunkan tingkat licik Ini adalah beberapa hasil keamanan AI jangka panjang yang paling menarik hingga saat ini, dan masih banyak pekerjaan yang harus dilakukan. Menantikan untuk melihat pekerjaan lebih lanjut dilakukan di ruang ini. Penelitian yang dilakukan bekerja sama dengan @apolloaievals: