Se pare că alți oameni converg pentru a folosi vllm v1 logprob pentru raportul de importanță pentru a remedia problema de stabilitate. Cred că am PTSD de la acest tip de accident rl
Zichen Liu
Zichen LiuCu 10 ore în urmă
Cu doar câteva linii de cod, soluția sugerată de Feng (@fengyao1909) – aplicarea eșantionării importanței asupra politicii de comportament – a rezolvat instabilitatea de antrenament în cazul meu (ovăz). Cred că rezultatul se poate generaliza și la alte cadre RL. Bună treabă, Feng!
3,7K