Con poche righe di codice, la soluzione suggerita da Feng (@fengyao1909)—applicare il campionamento di importanza sulla politica di comportamento—ha risolto l'instabilità dell'addestramento nel mio caso (oat). Credo che il risultato possa generalizzarsi anche ad altri framework di RL. Ottimo lavoro, Feng!
23,61K