RL's Razor: RL في السياسة تنسى أقل من SFT. حتى في الدقة المتطابقة ، تظهر RL نسيا أقل كارثية العامل الرئيسي: تحيز تحديثات RL على السياسة تجاه حلول KL Minimal تؤكد تجارب النظرية + LLM والألعاب أن RL تظل أقرب إلى النموذج الأساسي
‏‎103.1‏K