Så, som vi mistenkte, var overvåket finjustering en lobotomi. Glad for at vi la den epoken bak oss.
Aran Komatsuzaki
Aran Komatsuzaki5. sep., 12:36
RLs barberhøvel: RL glemmer mindre enn SFT. Selv ved matchet nøyaktighet viser RL mindre katastrofal glemsel Nøkkelfaktor: RLs politiske oppdateringsskjevhet mot KL-minimale løsninger Teori + LLM og leketøyseksperimenter bekrefter at RL holder seg nærmere basismodellen
12,18K