He estado desarrollando entornos durante la última semana. Creo que esto podría satisfacer las necesidades del entorno RL de las masas. Ha habido muchas cosas interesantes y geniales para probar, incluido el entorno de prueba de múltiples turnos Lean4 inspirado en StepRunProver que he creado.