Дехто каже, що середовище RL — це просто контейнер Docker Інші кажуть, що це просто крок() + скидання() Чому б не зробити всіх щасливими?
Я думаю, що очевидно, що ні те, ні інше не є повною історією. І саме це виклик дизайну, який Verifiers прагне вирішити; Все, що хтось розумно вважає середовищем RL, має підтримуватися *природно*, і низькорівневі примітиви створені з урахуванням цього
s/o @hallerite + @kcoopm за їхню роботу над цими 🫡
1,11K