vissa säger att en RL-miljö bara är en docker-container Andra säger att det bara är steg() + återställning() Varför inte göra alla glada?
Jag tycker det är ganska tydligt att ingen av dem är hela historien. Och detta är designutmaningen som verifiers vill lösa; allt som någon rimligen kan betrakta som en RL-miljö bör stödjas *naturligt*, och de låg-nivå primitiva är byggda med detta i åtanke
S/O @hallerite + @kcoopm för deras arbete med dessa 🫡
1,14K