Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sembra che altre persone convergano nell'utilizzare vllm v1 logprob per il rapporto di importanza per risolvere il problema di stabilità.
Penso di avere il PTSD da questo tipo di crash di RL.

18 ore fa
Con poche righe di codice, la soluzione suggerita da Feng (@fengyao1909)—applicare il campionamento di importanza sulla politica di comportamento—ha risolto l'instabilità dell'addestramento nel mio caso (oat). Credo che il risultato possa generalizzarsi anche ad altri framework di RL. Ottimo lavoro, Feng!

4,82K
Principali
Ranking
Preferiti