Am făcut progrese în ceea ce privește problema siguranței AI de detectare și reducere a "intrigurilor": - A creat medii de evaluare pentru a detecta intrigile - Modele de curent observate în setări controlate - Găsirea alinierii deliberative () scade ratele de intriga Acestea sunt unele dintre cele mai interesante rezultate de siguranță AI pe termen lung de până acum și mai este mult de lucru. Aștept cu nerăbdare să vedem lucrări suplimentare făcute în acest spațiu. Cercetare realizată în colaborare cu @apolloaievals: