noen sier at et RL-miljø bare er en docker-container Andre sier det bare er steg() + reset() Hvorfor ikke gjøre alle glade?
Jeg synes det er ganske klart at ingen av delene er hele historien. Og dette er designutfordringen som Verifiers ønsker å løse; alt som noen med rimelighet kan anse som et RL-miljø bør støttes *naturlig*, og lavnivå-primitivene er bygget med dette i tankene
S/O @hallerite + @kcoopm for arbeidet deres med disse 🫡
1,11K