Einige Leute sagen, dass eine RL-Umgebung nur ein Docker-Container ist. Andere sagen, es ist nur step() + reset(). Warum nicht alle glücklich machen?
Ich denke, es ist ziemlich klar, dass keines von beiden die ganze Geschichte ist. Und das ist die Design-Herausforderung, die Verifier zu lösen versucht; alles, was jemand vernünftigerweise als eine RL-Umgebung betrachten könnte, sollte *natürlich* unterstützt werden, und die Low-Level-Primitiven sind mit diesem Gedanken entwickelt.
s/o @hallerite + @kcoopm für ihre Arbeit an diesen 🫡
1,39K