🚀 Представляем SARM: Моделирование вознаграждений с учетом этапов для манипуляции роботами на длинных горизонтах Роботы испытывают трудности с такими задачами, как складывание смятой футболки — долгие, насыщенные контактами и трудные для маркировки. Мы предлагаем масштабируемую структуру моделирования вознаграждений, чтобы это исправить. 1/n