algunas personas dicen que un entorno de RL es solo un contenedor de docker otros dicen que es solo step() + reset() ¿por qué no hacer felices a todos?
Creo que está bastante claro que ninguno de los dos es la historia completa. Y este es el desafío de diseño que los verificadores buscan resolver; cualquier cosa que alguien pueda considerar razonablemente un entorno RL debería ser soportada *naturalmente*, y los primitivos de bajo nivel están construidos con esto en mente
s/o @hallerite + @kcoopm por su trabajo en esto 🫡
1,13K