Резон RL: Обучение с подкреплением на-policy забывает меньше, чем SFT. Даже при совпадающей точности, RL демонстрирует меньше катастрофического забывания. Ключевой фактор: обновления RL на-policy смещены в сторону решений с минимальным KL. Теория + LLM и игрушечные эксперименты подтверждают, что RL остается ближе к базовой модели.
103,11K