một số người nói rằng một môi trường RL chỉ là một container docker những người khác nói rằng nó chỉ là step() + reset() tại sao không làm cho mọi người đều hài lòng?
Tôi nghĩ rằng điều này khá rõ ràng rằng không bên nào là toàn bộ câu chuyện. Và đây là thách thức thiết kế mà các xác minh nhằm giải quyết; bất cứ điều gì mà ai đó có thể hợp lý coi là một môi trường RL đều nên được hỗ trợ *một cách tự nhiên*, và các nguyên tắc cơ bản ở cấp độ thấp được xây dựng với điều này trong tâm trí.
cảm ơn @hallerite + @kcoopm vì công việc của họ trên những cái này 🫡
1,36K