Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Also, wie wir vermutet haben, war das überwachte Feintuning eine Lobotomie.
Ich bin froh, dass wir diese Ära hinter uns gelassen haben.

5. Sept., 12:36
RLs Rasiermesser: On-Policy RL vergisst weniger als SFT.
Selbst bei übereinstimmender Genauigkeit zeigt RL weniger katastrophales Vergessen.
Schlüsselfaktor: RLs On-Policy-Updates neigen zu KL-minimalen Lösungen.
Theorie + LLM & Spielzeugexperimente bestätigen, dass RL näher am Basis-Modell bleibt.

12,21K
Top
Ranking
Favoriten