Razor RL: Uczenie się na polityce RL zapomina mniej niż SFT. Nawet przy dopasowanej dokładności, RL wykazuje mniejsze katastrofalne zapominanie. Kluczowy czynnik: aktualizacje on-policy w RL są ukierunkowane na rozwiązania minimalizujące KL. Teoria + LLM i eksperymenty z zabawkami potwierdzają, że RL pozostaje bliżej modelu bazowego.
103,11K