Vi har gjort framsteg när det gäller AI-säkerhetsproblemet med att upptäcka och minska "schemaläggning": - Skapade utvärderingsmiljöer för att upptäcka schemaläggning - Observerade aktuella modeller som intrigerar i kontrollerade miljöer - Hittade deliberativ anpassning () minskar planeringsfrekvensen Det här är några av de mest spännande långsiktiga resultaten för AI-säkerhet hittills, och det finns fortfarande mycket arbete kvar att göra. Ser fram emot att se ytterligare arbete utföras inom detta område. Forskning gjord i samarbete med @apolloaievals: