DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

RLs Rasiermesser: On-Policy RL vergisst weniger als SFT. Selbst bei übereinstimmender Genauigkeit zeigt RL weniger katastrophales Vergessen. Schlüsselfaktor: RLs On-Policy-Updates neigen zu KL-minimalen Lösungen. Theorie + LLM & Spielzeugexperimente bestätigen, dass RL näher am Basis-Modell bleibt.

103,12K

Top

Ranking

Favoriten