Ser ut til at andre mennesker konvergerer til å bruke vllm v1 logprob for viktighetsforholdet for å fikse stabilitetsproblemet. Jeg tror jeg har ptsd fra denne typen rl-krasj
Zichen Liu
Zichen Liu6 timer siden
Med bare noen få linjer med kode løste Fengs (@fengyao1909) foreslåtte løsning – å bruke viktighetssampling på atferdspolicyen – treningsustabiliteten i mitt tilfelle (havre). Jeg tror resultatet kan generaliseres til andre RL-rammeverk også. Flott arbeid, Feng!
1,78K