Fizemos progressos no problema de segurança da IA de detectar e reduzir "intrigas": - Criação de ambientes de avaliação para detectar esquemas - Modelos atuais observados planejando em ambientes controlados - Descobriu que o alinhamento deliberativo () diminui as taxas de intrigas Esses são alguns dos resultados de segurança de IA de longo prazo mais empolgantes até o momento, e ainda há muito trabalho a ser feito. Ansioso para ver mais trabalhos feitos neste espaço. Pesquisa feita em colaboração com @apolloaievals: