有些人說 RL 環境只是一個 docker 容器 其他人則說它只是 step() + reset() 為什麼不讓每個人都開心呢?
我認為很明顯,這兩者都不是完整的故事。這就是驗證者旨在解決的設計挑戰;任何人可能合理地認為是 RL 環境的事物都應該*自然地*得到支持,而低階原語則是以此為考量而構建的。
感謝 @hallerite 和 @kcoopm 在這些方面的工作 🫡
1.11K