jotkut sanovat, että RL-ympäristö on vain docker-kontti toiset sanovat, että kyse on vain step() + reset() Miksi et tekisi kaikkia onnellisiksi?
Mielestäni on melko selvää, ettei kumpikaan ole koko tarina. Ja tämä on se suunnitteluhaaste, jonka Verifiers pyrkii ratkaisemaan; kaikki, mitä joku voisi kohtuudella pitää RL-ympäristönä, tulisi tukea *luonnollisesti*, ja matalan tason primitiivit on rakennettu tätä varten
S/o @hallerite + @kcoopm heidän työstään näiden 🫡 parissa
1,12K