RL's Razor: За політикою RL забуває менше, ніж SFT. Навіть при підібраній точності RL показує менш катастрофічне забування Ключовий фактор: упередженість RL щодо оновлень у політиці в бік рішень з мінімальним тиском KL Теорія + експерименти з LLM та іграшками підтверджують, що RL залишається ближче до базової моделі
103,1K