一部の人は、強化学習環境は単なるDockerコンテナだと言います 他の人は単にstep() + reset()だと言います。 みんなを幸せにしてみてはどうですか?
どちらも全てではないことは明らかだと思います。これが検証者が解決しようとしている設計上の課題です。誰かが合理的に強化学習環境と考えるものはすべて自然にサポートされるべきであり、低レベルのプリミティブもその点を考慮して構築されています
これらの🫡作品へのご尽力に感謝@hallerite + @kcoopm
1.34K