RL's Razor: On-policy RL glömmer mindre än SFT. Även vid matchad noggrannhet visar RL mindre katastrofal glömska Nyckelfaktor: RL:s on-policy uppdaterar bias mot KL-minimala lösningar Teori + LLM och leksaksexperiment bekräftar att RL håller sig närmare basmodellen