RL's Razor: RL uită mai puțin decât SFT. Chiar și la o precizie egală, RL arată mai puține uitări catastrofale Factor cheie: RL actualizează politica de tendință către soluții KL-minimal Teoria + LLM și experimentele cu jucării confirmă că RL rămâne mai aproape de modelul de bază