Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zdá se, že ostatní lidé konvergují k používání vllm v1 logprob pro poměr důležitosti k vyřešení problému se stabilitou.
Myslím, že mám ptsd z tohoto typu rl crash

Před 10 h
S pouhými několika řádky kódu Fengova (@fengyao1909) navržená oprava – použití vzorkování důležitosti na politiku chování – vyřešila nestabilitu tréninku v mém případě (oat). Věřím, že výsledek lze zobecnit i na jiné rámce RL. Skvělá práce, Fengu!

3,7K
Top
Hodnocení
Oblíbené