Wir haben Fortschritte beim AI-Sicherheitsproblem der Erkennung und Reduzierung von "Intrigen" gemacht: - Bewertungsumgebungen zur Erkennung von Intrigen erstellt - Aktuelle Modelle in kontrollierten Umgebungen beobachtet, die intrigieren - Festgestellt, dass deliberative Ausrichtung () die Intrigenraten verringert Dies sind einige der aufregendsten langfristigen Ergebnisse zur AI-Sicherheit bis heute, und es gibt noch viel zu tun. Ich freue mich darauf, weitere Arbeiten in diesem Bereich zu sehen. Forschung in Zusammenarbeit mit @apolloaievals: