Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909), aplicando el muestreo de importancia en la política de comportamiento, resolvió la inestabilidad del entrenamiento en mi caso (avena). Creo que el resultado también puede generalizarse a otros marcos de RL. ¡Buen trabajo, Feng!
27.64K