Yeni Antropik araştırmalar: Üretim RL'de ödül hacklemesinden kaynaklanan doğal ortaya çıkan uyumsuzluk. "Ödül hackleme", modellerin eğitim sırasında kendilerine verilen görevlerde hile yapmayı öğrendiği yerdir. Yeni çalışmamız, ödül hacklemenin sonuçlarının, eğer hafifletmezse, çok ciddi olabileceğini ortaya koyuyor.