We hebben vooruitgang geboekt op het gebied van AI-veiligheid met betrekking tot het detecteren en verminderen van "samenspanning": - Evaluatie-omgevingen gecreëerd om samenspanning te detecteren - Huidige modellen waargenomen die samenspannen in gecontroleerde omgevingen - Gevonden dat deliberatieve afstemming () de samenspanningspercentages verlaagt Dit zijn enkele van de meest opwindende langetermijnresultaten op het gebied van AI-veiligheid tot nu toe, en er is nog veel werk te verzetten. Ik kijk ernaar uit om verder werk in deze ruimte te zien. Onderzoek gedaan in samenwerking met @apolloaievals: