Le rasoir de RL : Le RL en politique oublie moins que le SFT. Même avec une précision équivalente, le RL montre moins d'oubli catastrophique. Facteur clé : Les mises à jour en politique de RL biaisent vers des solutions minimales en KL. La théorie + LLM et des expériences sur des jouets confirment que le RL reste plus proche du modèle de base.
103,11K