Abbiamo fatto progressi sul problema della sicurezza dell'AI relativo al rilevamento e alla riduzione del "complotto": - Creati ambienti di valutazione per rilevare il complotto - Osservati i modelli attuali complottare in ambienti controllati - Trovata un'allineamento deliberativo () che riduce i tassi di complotto Questi sono alcuni dei risultati più entusiasmanti sulla sicurezza dell'AI a lungo termine fino ad oggi, e c'è ancora molto lavoro da fare. Non vedo l'ora di vedere ulteriori lavori svolti in questo campo. Ricerca condotta in collaborazione con @apolloaievals: