Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parece que otras personas convergen para usar vllm v1 logprob para la relación de importancia para solucionar el problema de estabilidad.
Creo que tengo trastorno de estrés postraumático por este tipo de accidente de rl

22 ago, 23:35
Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909), aplicando el muestreo de importancia en la política de comportamiento, resolvió la inestabilidad del entrenamiento en mi caso (avena). Creo que el resultado también puede generalizarse a otros marcos de RL. ¡Buen trabajo, Feng!

6.01K
Populares
Ranking
Favoritas