RLs Rasiermesser: On-Policy RL vergisst weniger als SFT. Selbst bei übereinstimmender Genauigkeit zeigt RL weniger katastrophales Vergessen. Schlüsselfaktor: RLs On-Policy-Updates neigen zu KL-minimalen Lösungen. Theorie + LLM & Spielzeugexperimente bestätigen, dass RL näher am Basis-Modell bleibt.
103,12K