algumas pessoas dizem que um ambiente RL é apenas um container docker outros dizem que é apenas step() + reset() por que não fazer todos felizes?
acho que está bastante claro que nenhum dos dois é a história completa. e este é o desafio de design que os verificadores pretendem resolver; qualquer coisa que alguém possa razoavelmente considerar um ambiente RL deve ser suportada *naturalmente*, e os primitivos de baixo nível são construídos com isso em mente
s/o @hallerite + @kcoopm pelo trabalho deles nestes 🫡
1,12K