Also, wie wir vermutet haben, war das überwachte Feintuning eine Lobotomie. Ich bin froh, dass wir diese Ära hinter uns gelassen haben.
Aran Komatsuzaki
Aran Komatsuzaki5. Sept., 12:36
RLs Rasiermesser: On-Policy RL vergisst weniger als SFT. Selbst bei übereinstimmender Genauigkeit zeigt RL weniger katastrophales Vergessen. Schlüsselfaktor: RLs On-Policy-Updates neigen zu KL-minimalen Lösungen. Theorie + LLM & Spielzeugexperimente bestätigen, dass RL näher am Basis-Modell bleibt.
12,21K