algunas personas dicen que un entorno RL es simplemente un contenedor docker otros dicen que es simplemente paso() + reinicio() ¿Por qué no hacer felices a todos?
Creo que está bastante claro que ninguna de las dos cosas lo es toda la historia. Y este es el reto de diseño que Verifiers pretende resolver; cualquier cosa que alguien considere razonablemente un entorno de RL debería ser soportada *de forma natural*, y las primitivas de bajo nivel se construyen teniendo esto en cuenta
s/o @hallerite + @kcoopm por su trabajo en estos 🫡
1.34K