热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有些人说 RL 环境只是一个 docker 容器
其他人说它只是 step() + reset()
为什么不让每个人都开心呢?

我认为很明显,这两者都不是完整的故事。这就是验证者旨在解决的设计挑战;任何人可能合理地认为是 RL 环境的东西都应该*自然地*得到支持,而低级原语的构建也是考虑到这一点。
感谢 @hallerite 和 @kcoopm 在这些方面的工作 🫡
1.11K
热门
排行
收藏
