Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es scheint, dass andere Leute dazu neigen, vllm v1 logprob für das Wichtigkeitsverhältnis zu verwenden, um das Stabilitätsproblem zu beheben.
Ich glaube, ich habe PTSD von dieser Art von RL-Absturz.

22. Aug., 23:35
Mit nur wenigen Codezeilen hat Fengs (@fengyao1909) vorgeschlagene Lösung – die Anwendung von Importance Sampling auf die Verhaltenspolitik – die Trainingsinstabilität in meinem Fall (oat) behoben. Ich glaube, dass das Ergebnis auch auf andere RL-Frameworks übertragbar ist. Großartige Arbeit, Feng!

5,34K
Top
Ranking
Favoriten