algumas pessoas dizem que um ambiente de RL é apenas um container docker Outros dizem que é só passo() + reset() Por que não deixar todo mundo feliz?
Acho que está bem claro que nenhuma das duas é a história toda. E esse é o desafio de design que a Verifiers busca resolver; qualquer coisa que alguém considere razoavelmente um ambiente de RL deve ser suportada *naturalmente*, e os primitivos de baixo nível são construídos com isso em mente
s/o @hallerite + @kcoopm pelo trabalho deles nesses 🫡
1,13K