A Navalha de RL: O RL em política esquece menos do que o SFT. Mesmo com precisão igualada, o RL mostra menos esquecimento catastrófico. Fator chave: As atualizações em política do RL tendem a soluções KL-mínimas. Teoria + LLM e experimentos simples confirmam que o RL permanece mais próximo do modelo base.
103,12K