certaines personnes disent qu'un environnement RL n'est qu'un conteneur docker d'autres disent que c'est juste step() + reset() pourquoi ne pas rendre tout le monde heureux ?
je pense qu'il est assez clair que ni l'un ni l'autre n'est l'histoire complète. et c'est le défi de conception que les vérificateurs visent à résoudre ; tout ce que quelqu'un pourrait raisonnablement considérer comme un environnement RL devrait être pris en charge *naturellement*, et les primitives de bas niveau sont construites en gardant cela à l'esprit
s/o @hallerite + @kcoopm pour leur travail sur ceux-ci 🫡
1,36K