niektórzy mówią, że środowisko RL to po prostu kontener dockerowy inni mówią, że to tylko step() + reset() dlaczego nie sprawić, żeby wszyscy byli zadowoleni?
Myślę, że to dość jasne, że żadne z nich nie jest całą historią. I to jest wyzwanie projektowe, które weryfikatorzy mają na celu rozwiązanie; wszystko, co ktoś może rozsądnie uznać za środowisko RL, powinno być wspierane *naturalnie*, a niskopoziomowe prymitywy są budowane z myślą o tym.
s/o @hallerite + @kcoopm za ich pracę nad tymi 🫡
1,36K