El Afilador de RL: El RL en política olvida menos que el SFT. Incluso con una precisión igualada, el RL muestra menos olvido catastrófico. Factor clave: Las actualizaciones en política del RL se sesgan hacia soluciones mínimas de KL. La teoría + LLM y experimentos de juguete confirman que el RL se mantiene más cerca del modelo base.