有些人说 RL 环境只是一个 docker 容器 其他人说它只是 step() + reset() 为什么不让每个人都开心呢?
我认为很明显,这两者都不是完整的故事。这就是验证者旨在解决的设计挑战;任何人可能合理地认为是 RL 环境的东西都应该*自然地*得到支持,而低级原语的构建也是考虑到这一点。
感谢 @hallerite 和 @kcoopm 在这些方面的工作 🫡
1.11K