unii spun că un mediu RL este doar un container docker Alții spun că este doar step() + reset() De ce să nu faci pe toată lumea fericită?
Cred că este destul de clar că nici întreaga poveste nu este. Și aceasta este provocarea de design pe care Verifiers își propune să o rezolve; orice lucru pe care cineva l-ar considera rezonabil un mediu RL ar trebui susținut *natural*, iar primitivele de nivel scăzut sunt construite având acest aspect în minte
s/o @hallerite + @kcoopm pentru munca lor la aceste 🫡
1,36K