RLs barberhøvel: RL glemmer mindre enn SFT. Selv ved matchet nøyaktighet viser RL mindre katastrofal glemsel Nøkkelfaktor: RLs politiske oppdateringsskjevhet mot KL-minimale løsninger Teori + LLM og leketøyseksperimenter bekrefter at RL holder seg nærmere basismodellen
103,04K