我們在檢測和減少“陰謀”這一AI安全問題上取得了進展: - 創建了評估環境以檢測陰謀 - 在受控環境中觀察到當前模型的陰謀行為 - 發現深思熟慮的對齊()降低了陰謀率 這些是迄今為止一些最令人興奮的長期AI安全成果,仍然有很多工作要做。期待在這個領域看到更多的工作。 與@apolloaievals合作進行的研究: