Rasoio di RL: L'RL on-policy dimentica meno rispetto a SFT. Anche con un'accuratezza corrispondente, l'RL mostra meno dimenticanza catastrofica. Fattore chiave: gli aggiornamenti on-policy dell'RL tendono verso soluzioni KL-minimali. La teoria + LLM e esperimenti con giocattoli confermano che l'RL rimane più vicino al modello di base.
103,1K