Отже, як ми і підозрювали, під наглядом тонкої настройки була лоботомія. Радий, що ми залишили цю епоху позаду.
Aran Komatsuzaki
Aran Komatsuzaki5 вер., 12:36
RL's Razor: За політикою RL забуває менше, ніж SFT. Навіть при підібраній точності RL показує менш катастрофічне забування Ключовий фактор: упередженість RL щодо оновлень у політиці в бік рішень з мінімальним тиском KL Теорія + експерименти з LLM та іграшками підтверджують, що RL залишається ближче до базової моделі
12,18K