RL:n partaveitsi: Politiikan mukainen RL unohtaa vähemmän kuin SFT. Jopa vastaavalla tarkkuudella RL osoittaa vähemmän katastrofaalista unohtamista Avaintekijä: RL:n politiikkapäivitykset suosivat KL-minimaalisia ratkaisuja Teoria + LLM ja lelukokeet vahvistavat, että RL pysyy lähempänä perusmallia