sommige mensen zeggen dat een RL-omgeving gewoon een docker-container is anderen zeggen dat het gewoon step() + reset() is waarom niet iedereen gelukkig maken?
ik denk dat het vrij duidelijk is dat geen van beide het hele verhaal is. en dit is de ontwerpprobleem dat verifiers probeert op te lossen; alles wat iemand redelijkerwijs als een RL-omgeving zou kunnen beschouwen, zou *natuurlijk* ondersteund moeten worden, en de laag-niveau primitieve zijn met dit in gedachten gebouwd.
s/o @hallerite + @kcoopm voor hun werk aan deze 🫡
1,12K