RL's Razor: On-policy RL vergeet minder dan SFT. Zelfs bij gelijke nauwkeurigheid toont RL minder catastrofaal vergeten. Belangrijke factor: RL's on-policy updates zijn geneigd naar KL-minimale oplossingen. Theorie + LLM & speelgoedexperimenten bevestigen dat RL dichter bij het basismodel blijft.
103,11K