некоторые люди говорят, что RL окружение — это просто контейнер Docker другие говорят, что это просто step() + reset() почему бы не сделать всех счастливыми?
Я думаю, что это довольно очевидно, что ни одно из них не является полной историей. И это та задача дизайна, которую стремятся решить проверяющие; все, что кто-то может разумно считать средой RL, должно поддерживаться *естественным образом*, и низкоуровневые примитивы созданы с учетом этого.
s/o @hallerite + @kcoopm за их работу над этими 🫡
1,12K